O documento descreve a arquitetura de clusters do Google para busca na web, que usa mais de 15.000 PCs baratos para alcançar alta performance a um custo menor do que sistemas com poucos servidores caros. A arquitetura aproveita paralelização, replicação e foco em razão performance/preço ao invés de performance máxima.
1. Busca na web para um planeta A Arquitetura de Cluster do Google
2.
3.
4.
5. O Buscador Perfeito “ Entende exatamente o que você quis dizer e devolve exatamente o que você queria” Larry Page < html > < title > Corp. Info - Tech Overview </ title > < body > < h1 > Corporate Information </ h1 > < li >< a href= “/home.htm” > Home </ a ></ li > < h2 > Technology Overview </ h2 > < p > We stand alone in our focus on developing the "perfect search engine, PageRank Análise e classificação do conteúdo HTML
6. Ciclo de vida de uma consulta Um ciclo leva cerca de 0,5 segundo
10. Multicomputador Memória Processador Rede local: comunicação por passagem de mensagens P M P M P M P M P M P M P M P M P M P M P M P M P M P M P M P M
20. Tratamento de consultas Servidor Web do Google Correção ortográfica Servidor de Anúncios Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos
21. Tratamento de consultas Correção ortográfica Servidor de Anúncios Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidor Web do Google Recebe termos da consulta
22. Tratamento de consultas Servidor Web do Google Servidor de Anúncios Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Correção ortográfica Você quis dizer:
23. Tratamento de consultas Servidor Web do Google Correção ortográfica Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidor de Anúncios AdSense e links patrocinados
24. Tratamento de consultas Servidor Web do Google Correção ortográfica Servidor de Anúncios Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Índice invertido: palavra1: doc1 - doc12 - doc32 - doc43 - doc100 palavra2: doc12 - doc132 doc181 (cada máquina possui um pedaço do índice)
25. Tratamento de consultas Servidor Web do Google Correção ortográfica Servidor de Anúncios Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Formatação do resultado: Extrai título e pequena descrição contendo termos da consulta de cada documento (cada máquina possui um conjunto de documentos)
26. Tratamento de consultas Correção ortográfica Servidor de Anúncios Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidor Web do Google Retorna HTML com resultados da busca
27. Tratamento de consultas Servidor Web do Google Correção ortográfica Servidor de Anúncios Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Índice Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos Servidores de Documentos
O PageRank é um conjunto de algoritmos que determinam a ordem de relevância de um conjunto de documentos na Internet. Um grande diferencial do Google foi analisar o código das páginas não como texto, mas como HTML. Entender qual a relevância que cada conjunto de caracteres tem dependendo de onde no HTML eles estavam localizados.
Retirado do diagrama em: http://www.google.com/corporate/tech.html
Exemplo, para a arquitetura do Google é melhor um processador de 1Ghz que custa R$ 100,00 (10Ghz/R$) do que um processador de 4Ghz que custa R$ 4000,00 (1Ghz/R$)