SlideShare ist ein Scribd-Unternehmen logo
1 von 19
DDaavviidd
Chapter2 -Chapter2 - 구구글글의의 공공
룡룡화화
Google
ContentContent
 인터넷을 ` 검색하는 거대 시스템
 검색 클러스터
인터넷을 검색하는인터넷을 검색하는 거대 시스템거대 시스템
Google
값싼 PC 를 대량으로 이용
Scale-Up
Scale-Out
대량의 PC 를 어떻게 이용하는 거지 ?
하나의 시스템으로 연결
스위치스위치
PCPCPCPC
PCPCPCPC
PCPCPCPC
PCPCPCPC
렉렉
클러스터클러스터 클러스터클러스터 클러스터클러스터
클러스터클러스터
클러스터클러스터
클러스터클러스터
데이터 센터데이터 센터
클러스터클러스터
하나의 시스템으로 연결
 렉 (Rack)
- 시스템의 기본 , 2~4CPU, 2~4GB 메모리 , 1Gbps LAN
 클러스터
- 서로 협조하여 하나의 기능 제공하는 컴퓨터 집합
( 검색 클러스터 , 수집클러스터 , 테스트용 클러스터 )
 데이터 센터
- 다수의 렉의 집합
값싼 장비의 대량 이용시 문제점
 하드웨어의 고장
- 저가의 하드웨어 , 하드웨어를 늘릴수록 고장 확률이 높다 .
- 고장에 대한 장애에 대해 미리 대비해야 한다 .
 고난도 분산처리
- 다수 머신의 동시 사용시 어려움
- 복수 머신 처리시에 성능의 저하
- 최대 확장구조 파악 , 병목현상 방지
CPU 와 HDD 의 알뜰한 활용
 GFS 클러스터
- 다수의 머신을 이용하여 거대한 파일시스템 만들어냄
- 각 머신의 하드디스크 드라이브의 데이터를 네트워크를 이용
읽고 쓸 수 있게 하는 기술
 Work Queue 클러스터 (CPU)
- 머신의 부하를 감시 , 비교적 여유가 있는 머신에게 테스크 부여
검색 엔진 개량
 검색서버의 대규모화
검색 서버
Barrels
Lexicon
Docindex
확장한다
검색 엔진 개량
 검색 백엔드의 대규모화
단어 처리
구조 해석
확장성이 있는가 ? 리포지터리
병목현상 ?
확장한다
크롤러
크롤러
크롤러
병목현상 ?
검색 엔진 개량
 인덱스의 대규모화
- 인덱스 분할을 매번 고려하는 것이 번거로운 만큼 시스템이
자동적으로 분산처리를 할 수 있도록 범용 인덱스 시스템준비
세계로 눈을 돌린세계로 눈을 돌린 검색 클러스터검색 클러스터
Google
가까운 데이터 센터로 접속
DNSDNS
http://www.google.com/
x. x. x. x
Data CenterData Center
Data CenterData Center
Data CenterData Center
다수의 서버로 부하를 분산
 GWS (Google Web Server)
- 검색요청을 한곳에 모으는 역할을 한다 .
- 직접 검색 요청을 처리 하지 않으며 결과만 이용자에게 준다 .
 인덱스 서버
 도큐먼트 서버
검색클러스터
LB
GWS
인덱스서버
GWS GWS
도큐먼트서버
많은 인덱스를 한번에 검색
G W S
LB
index index
index index
shard LB
index index
index index
shard LB
index index
index index
shard
새로운 웹 검색 절차
shard
shard
shard
shard
shard
G W S
스펠링 체크 서버
광고 서버
검색어
검색어 검색어
요약
docID
docID
인덱스 서버인덱스 서버 도큐먼트 서버도큐먼트 서버
11
11
22
’’
새로운 웹 검색 절차
 인덱스 서버
- 인덱스 서버를 구성하는 모든 shard 클러스터 검색요구
- shard 클러스터는 담당범위를 검색 , 발견된 웹은 페이지 랭킹
- 다수의 shard 클러스터로 분산처리 함에 따라 이전 방식에
비해서 더 많은 수의 페이지 랭킹을 할 수 있다 .
- 랭킹결과 , 상위선택된 웹페이지의 docID 와 점수가 GWS 로 반
환
- GWS 는 모든 shard 클러스터로부터 받은 검색 결과를 기다려 ,
상위의 웹페이지를 최종 검색 결과로 채택
11
새로운 웹 검색 절차
 도큐먼트 서버
- 도출 검색결과 -> 도큐먼트 서버로 전달
- 기본구조는 인덱스 서버와 동일
- 웹페이지의 내용이 복수 shard 로 분산 전달
- 도큐먼트 서버의 shard 의 웹페이지의 URL, 제목 , 논문등
각종 텍스트를 이용해서 GWS 에서 보내진 docID 를 이용
웹페이지의 요약과 제목을 만든다 .
 그 밖의 처리
- 스펠링 체크서버와의 통신을 통해 오타확인 , 다른 검색후보 제시
- 광고 서버를 이용해 검색어와 어울리는 광고를 찾아 광고한다 .
22
11
’’
TThhaannkk yyoouu

Weitere ähnliche Inhalte

Was ist angesagt?

대규모 서비스를 지탱하는 기술 Ch 4
대규모 서비스를 지탱하는 기술 Ch 4대규모 서비스를 지탱하는 기술 Ch 4
대규모 서비스를 지탱하는 기술 Ch 4
ukjinkwoun
 
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
Jaikwang Lee
 

Was ist angesagt? (18)

elasticsearch
elasticsearchelasticsearch
elasticsearch
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
대규모 서비스를 지탱하는 기술 Ch 4
대규모 서비스를 지탱하는 기술 Ch 4대규모 서비스를 지탱하는 기술 Ch 4
대규모 서비스를 지탱하는 기술 Ch 4
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
Fundamental of ELK Stack
Fundamental of ELK StackFundamental of ELK Stack
Fundamental of ELK Stack
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축
 
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
 
네이버클라우드플랫폼 온라인 교육 시리즈 - 네이버클라우드플랫폼 Object Storage CLI를 이용한 DB백업 자동화(정낙수 클라우드 ...
네이버클라우드플랫폼 온라인 교육 시리즈 - 네이버클라우드플랫폼 Object Storage CLI를 이용한 DB백업 자동화(정낙수 클라우드 ...네이버클라우드플랫폼 온라인 교육 시리즈 - 네이버클라우드플랫폼 Object Storage CLI를 이용한 DB백업 자동화(정낙수 클라우드 ...
네이버클라우드플랫폼 온라인 교육 시리즈 - 네이버클라우드플랫폼 Object Storage CLI를 이용한 DB백업 자동화(정낙수 클라우드 ...
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
 
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
 
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
 
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다
 
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
 

Ähnlich wie 구글의 공룡화

google dinos
google dinosgoogle dinos
google dinos
juhyun
 
Cubrid Inside 5th Session 4 Replication
Cubrid Inside 5th Session 4 ReplicationCubrid Inside 5th Session 4 Replication
Cubrid Inside 5th Session 4 Replication
CUBRID
 
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
Woo Yeong Choi
 

Ähnlich wie 구글의 공룡화 (20)

google dinos
google dinosgoogle dinos
google dinos
 
Google요약
Google요약Google요약
Google요약
 
Google2
Google2Google2
Google2
 
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 AdvancedAWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
AWS를 활용한 글로벌 아키텍처 운용 전략 - 김상필 솔루션즈 아키텍트:: AWS Cloud Track 2 Advanced
 
Rhea_MMO_SNG_Convergence_Server_Architecture
Rhea_MMO_SNG_Convergence_Server_ArchitectureRhea_MMO_SNG_Convergence_Server_Architecture
Rhea_MMO_SNG_Convergence_Server_Architecture
 
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
AWS 클라우드로 천만명 웹 서비스 확장하기 - 윤석찬 백승현 - AWS Summit 2016
 
Cubrid Inside 5th Session 4 Replication
Cubrid Inside 5th Session 4 ReplicationCubrid Inside 5th Session 4 Replication
Cubrid Inside 5th Session 4 Replication
 
1711 azure-live
1711 azure-live1711 azure-live
1711 azure-live
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
Cloud-Barista 제3차 오픈 컨퍼런스 : CB-Spider - 멀티 클라우드 인프라 연동(Multi-Cloud Infrastruc...
 
CDN overview
CDN overviewCDN overview
CDN overview
 
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
 
AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
Cloud-Barista 제6차 오픈 컨퍼런스 : 멀티클라우드 인프라 및 응용을 위한 네트워크 (CB-Larva)
Cloud-Barista 제6차 오픈 컨퍼런스 : 멀티클라우드 인프라 및 응용을 위한 네트워크 (CB-Larva)Cloud-Barista 제6차 오픈 컨퍼런스 : 멀티클라우드 인프라 및 응용을 위한 네트워크 (CB-Larva)
Cloud-Barista 제6차 오픈 컨퍼런스 : 멀티클라우드 인프라 및 응용을 위한 네트워크 (CB-Larva)
 
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingCloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
 
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
 
리스펙토링 6월 세미나, AWS로 개인서버 구축하기
리스펙토링 6월 세미나, AWS로 개인서버 구축하기리스펙토링 6월 세미나, AWS로 개인서버 구축하기
리스펙토링 6월 세미나, AWS로 개인서버 구축하기
 
Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작
 
1611 azure-live-세션-2
1611 azure-live-세션-21611 azure-live-세션-2
1611 azure-live-세션-2
 

Mehr von juhyun

Social Web 4
Social Web 4Social Web 4
Social Web 4
juhyun
 
Social Web 3
Social Web 3Social Web 3
Social Web 3
juhyun
 
Social Web 2
Social Web 2Social Web 2
Social Web 2
juhyun
 
Social Web 1
Social Web 1Social Web 1
Social Web 1
juhyun
 
미코노미2
미코노미2미코노미2
미코노미2
juhyun
 
웹기획2
웹기획2웹기획2
웹기획2
juhyun
 
웹사이트 벤치마킹의2
웹사이트 벤치마킹의2웹사이트 벤치마킹의2
웹사이트 벤치마킹의2
juhyun
 
Meconomy2
Meconomy2Meconomy2
Meconomy2
juhyun
 
미코노미
미코노미미코노미
미코노미
juhyun
 
Meconomy
MeconomyMeconomy
Meconomy
juhyun
 
구글의 분산데이터 처리
구글의 분산데이터 처리구글의 분산데이터 처리
구글의 분산데이터 처리
juhyun
 
Meconomy
MeconomyMeconomy
Meconomy
juhyun
 
Web Plan1 4
Web Plan1 4Web Plan1 4
Web Plan1 4
juhyun
 
Banchmarking1 4
Banchmarking1 4Banchmarking1 4
Banchmarking1 4
juhyun
 
Google Birth
Google BirthGoogle Birth
Google Birth
juhyun
 
Google Birth
Google BirthGoogle Birth
Google Birth
juhyun
 
Google Birth
Google BirthGoogle Birth
Google Birth
juhyun
 

Mehr von juhyun (18)

Web 5
Web 5Web 5
Web 5
 
Social Web 4
Social Web 4Social Web 4
Social Web 4
 
Social Web 3
Social Web 3Social Web 3
Social Web 3
 
Social Web 2
Social Web 2Social Web 2
Social Web 2
 
Social Web 1
Social Web 1Social Web 1
Social Web 1
 
미코노미2
미코노미2미코노미2
미코노미2
 
웹기획2
웹기획2웹기획2
웹기획2
 
웹사이트 벤치마킹의2
웹사이트 벤치마킹의2웹사이트 벤치마킹의2
웹사이트 벤치마킹의2
 
Meconomy2
Meconomy2Meconomy2
Meconomy2
 
미코노미
미코노미미코노미
미코노미
 
Meconomy
MeconomyMeconomy
Meconomy
 
구글의 분산데이터 처리
구글의 분산데이터 처리구글의 분산데이터 처리
구글의 분산데이터 처리
 
Meconomy
MeconomyMeconomy
Meconomy
 
Web Plan1 4
Web Plan1 4Web Plan1 4
Web Plan1 4
 
Banchmarking1 4
Banchmarking1 4Banchmarking1 4
Banchmarking1 4
 
Google Birth
Google BirthGoogle Birth
Google Birth
 
Google Birth
Google BirthGoogle Birth
Google Birth
 
Google Birth
Google BirthGoogle Birth
Google Birth
 

Kürzlich hochgeladen

Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
Wonjun Hwang
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
Wonjun Hwang
 

Kürzlich hochgeladen (6)

Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 

구글의 공룡화

  • 1. DDaavviidd Chapter2 -Chapter2 - 구구글글의의 공공 룡룡화화 Google
  • 2. ContentContent  인터넷을 ` 검색하는 거대 시스템  검색 클러스터
  • 3. 인터넷을 검색하는인터넷을 검색하는 거대 시스템거대 시스템 Google
  • 4. 값싼 PC 를 대량으로 이용 Scale-Up Scale-Out
  • 5. 대량의 PC 를 어떻게 이용하는 거지 ? 하나의 시스템으로 연결 스위치스위치 PCPCPCPC PCPCPCPC PCPCPCPC PCPCPCPC 렉렉 클러스터클러스터 클러스터클러스터 클러스터클러스터 클러스터클러스터 클러스터클러스터 클러스터클러스터 데이터 센터데이터 센터 클러스터클러스터
  • 6. 하나의 시스템으로 연결  렉 (Rack) - 시스템의 기본 , 2~4CPU, 2~4GB 메모리 , 1Gbps LAN  클러스터 - 서로 협조하여 하나의 기능 제공하는 컴퓨터 집합 ( 검색 클러스터 , 수집클러스터 , 테스트용 클러스터 )  데이터 센터 - 다수의 렉의 집합
  • 7. 값싼 장비의 대량 이용시 문제점  하드웨어의 고장 - 저가의 하드웨어 , 하드웨어를 늘릴수록 고장 확률이 높다 . - 고장에 대한 장애에 대해 미리 대비해야 한다 .  고난도 분산처리 - 다수 머신의 동시 사용시 어려움 - 복수 머신 처리시에 성능의 저하 - 최대 확장구조 파악 , 병목현상 방지
  • 8. CPU 와 HDD 의 알뜰한 활용  GFS 클러스터 - 다수의 머신을 이용하여 거대한 파일시스템 만들어냄 - 각 머신의 하드디스크 드라이브의 데이터를 네트워크를 이용 읽고 쓸 수 있게 하는 기술  Work Queue 클러스터 (CPU) - 머신의 부하를 감시 , 비교적 여유가 있는 머신에게 테스크 부여
  • 9. 검색 엔진 개량  검색서버의 대규모화 검색 서버 Barrels Lexicon Docindex 확장한다
  • 10. 검색 엔진 개량  검색 백엔드의 대규모화 단어 처리 구조 해석 확장성이 있는가 ? 리포지터리 병목현상 ? 확장한다 크롤러 크롤러 크롤러 병목현상 ?
  • 11. 검색 엔진 개량  인덱스의 대규모화 - 인덱스 분할을 매번 고려하는 것이 번거로운 만큼 시스템이 자동적으로 분산처리를 할 수 있도록 범용 인덱스 시스템준비
  • 12. 세계로 눈을 돌린세계로 눈을 돌린 검색 클러스터검색 클러스터 Google
  • 13. 가까운 데이터 센터로 접속 DNSDNS http://www.google.com/ x. x. x. x Data CenterData Center Data CenterData Center Data CenterData Center
  • 14. 다수의 서버로 부하를 분산  GWS (Google Web Server) - 검색요청을 한곳에 모으는 역할을 한다 . - 직접 검색 요청을 처리 하지 않으며 결과만 이용자에게 준다 .  인덱스 서버  도큐먼트 서버 검색클러스터 LB GWS 인덱스서버 GWS GWS 도큐먼트서버
  • 15. 많은 인덱스를 한번에 검색 G W S LB index index index index shard LB index index index index shard LB index index index index shard
  • 16. 새로운 웹 검색 절차 shard shard shard shard shard G W S 스펠링 체크 서버 광고 서버 검색어 검색어 검색어 요약 docID docID 인덱스 서버인덱스 서버 도큐먼트 서버도큐먼트 서버 11 11 22 ’’
  • 17. 새로운 웹 검색 절차  인덱스 서버 - 인덱스 서버를 구성하는 모든 shard 클러스터 검색요구 - shard 클러스터는 담당범위를 검색 , 발견된 웹은 페이지 랭킹 - 다수의 shard 클러스터로 분산처리 함에 따라 이전 방식에 비해서 더 많은 수의 페이지 랭킹을 할 수 있다 . - 랭킹결과 , 상위선택된 웹페이지의 docID 와 점수가 GWS 로 반 환 - GWS 는 모든 shard 클러스터로부터 받은 검색 결과를 기다려 , 상위의 웹페이지를 최종 검색 결과로 채택 11
  • 18. 새로운 웹 검색 절차  도큐먼트 서버 - 도출 검색결과 -> 도큐먼트 서버로 전달 - 기본구조는 인덱스 서버와 동일 - 웹페이지의 내용이 복수 shard 로 분산 전달 - 도큐먼트 서버의 shard 의 웹페이지의 URL, 제목 , 논문등 각종 텍스트를 이용해서 GWS 에서 보내진 docID 를 이용 웹페이지의 요약과 제목을 만든다 .  그 밖의 처리 - 스펠링 체크서버와의 통신을 통해 오타확인 , 다른 검색후보 제시 - 광고 서버를 이용해 검색어와 어울리는 광고를 찾아 광고한다 . 22 11 ’’