SlideShare ist ein Scribd-Unternehmen logo
1 von 35
Ordenação e Recuperação de Dados

               Aula 14:
            Análise de Links
           Alexandre Duarte
         alexandre@di.ufpb.br


                                1   1
Aula de hoje – hipertexto e links
 Veremos além do conteúdo dos documentos
   Começaremos a analisar os hiperlinks entre eles
 Tratar de questões como:
   Os links representam indicações da relevância de algumas
    páginas? Está informação é útil na classificação?
   Qual a probabilidade de uma página referenciada pela
    home page do CERN tratar de física nuclear?
 Grandes áreas de aplicação
   A Web
   Email
   Redes sociais
Links estão em todo lugar
 Poderosa ferramenta para autenticidade e
  autoridade
   Mail spam – quais contas de e-mail são de spammers?
   Qualidade de servidores – quais servidores são ruins
   Log de chamadas telefônicas
 O Bom, O Ruim e O Desconhecido
                                 ?

     Good                ?           ?
                                              Bad

                             ?
Lógica iterativa simples
 O Bom, O Ruim e O Desconhecido
   Bons nós não apontam para nós ruin
   Todas as outras combinações são plausíveis



                                 ?

     Bom                 ?           ?           Ruim


                             ?
                                                        4
Lógica iterativa simples
 Bons nós não apontam para nós ruins
   Se você aponta para um nós ruim, você é ruim
   Se um nó bom aponta para você, você é bom



                                 ?

     Bom                 ?           ?        Ruim


                             ?
                                                     5
Lógica iterativa simples
 Bons nós não apontam para nós ruins
   Se você aponta para um nós ruim, você é ruim
   Se um nó bom aponta para você, você é bom




     Bom                                      Ruim



                                                     6
Muitos outros exemplos de análise de
links
 Redes sociais são uma rica fonte para análise de
  comportamento em grupo
 Ex., Afinidade de compradores – Goel+Goldstein
  2010
    Consumidores cujos amigos gastam muito, tendem a
     gastar muito também
 http://www.cs.cornell.edu/home/kleinber/networks-book/




                                                           7
Nosso principal interesse neste curso
 Análogo a maioria das funcionalidades de um
  sistema de recuperação de informação baseado
  puramente em texto
   Scoring e classificação
   Agrupamento baseado em links
   Links como critério de classificação – documentos que
    apontam para outros documentos tendem a tratar do
    mesmo assunto
 Crawling
   Baseado nos links já visitados, para onde ir em seguida?

                                                               8
Sec. 21.1




A Web como um Grafo Dirigido

                        hyperlink
      Página A Âncora                  Página B




  Suposição 1: Um hyperlink entre duas páginas indica uma
  atribuição de competência (sinal de qualidade)

  Suposição 2: O texto âncora de um hyperlink descreve a
  página alvo (conteúdo textual)
Suposição 1: reputação de sites




                                  10
Suposição 2: anotação do alvo




                                11
Sec. 21.1.1




 Texto âncora
   Para ibm como distinguir entre :
      A página da IBM (predominantemente gráfica)
      Página de copyright da IBM (alta frequência do termo
       “ibm”)
      Página spam de um rival (frequencia arbirtráriamente alta
       de algum termo)
                          “ibm.com”           “IBM home page”
          “ibm”
Um milhão de textos
âncora com a palavra
“ibm” são um forte        www.ibm.com
sinal
Sec. 21.1.1




Indexando texto âncora
 Ao indexar um documento D, incluir (com algum
  peso) os textos âncora dos documentos com links
  apontando para D.
      Armonk, NY-based computer
       giant IBM announced today

                                   www.ibm.com


Joe’s computer hardware         Big Blue today announced
links                          record profits for the quarter
Sun
HP
IBM
Sec. 21.1.1




Indexando texto âncora
 Algumas vezes pode ter efeitos não esperados:
  exército do mal.
 É possível atribuir um score ao texto âncora
  dependente da relevância/competência da página
  onde o link se encontra
   Ex., se assumirmos que o conteúdo das páginas de
    ccn.com e yahoo.com têm relevância devemos confiar nos
    textos âncora que apresentam
Sec. 21.1.1




Texto âncora
 Outras aplicações
   Ponderação/filtragem de links em um grafo
   Geração de descrições de páginas a partir
    de textos âncora
A web não cita por mérito
 Milhões de participantes, com interesses individuais
 Spamming é encontrado em todo lugar
 Quando ferramentas de busca começaram a utilizar
  links para classificação (meados de 1998), o spam de
  links aumentou
    Você pode ingressar em um grupo de websites que fazem
     ligações em massa entre si




                                                             16
Links de entrada para páginas –
padrões não-usuais 




                                  17
Sec. 21.2




Pagerank
 Imagine um browser fazendo uma navegação
  aleatória na web:                  1/3
    Inicia em uma página qualquer              1/3
                                                1/3
    A cada passo, sai da página atual por um de seus links, de
     forma equiprovável
 Cada página terá, a longo prazo, uma taxa de
  visitação – usar isso como o score da página.
Sec. 21.2




Isso não é suficiente
 A web está cheia de becos sem saída.
    Caminhamentos aleatórios podem levar a um beco sem
     saída.
    Fica sem sentido falar em taxa de visitação a longo prazo.




                                      ??
Sec. 21.2




Teletransporte
 Em um beco sem saída, pular para uma
  página aleatória.
 Em qualquer página que não seja um beco
  sem saída, manter uma chance de 10% de
  saltar para uma página aleatória.
   Com a probabilidade restante (90%), sair
    por um dos links de forma aleatória.
   10% - é um parâmetro.
Sec. 21.2




Resultados do teletransporte
 Nunca ficar preso em um beco sem
  saída
 Há uma taxa de visitação a longo prazo
  para cada página visitada
A realidade
 Pagerank é utilizado pelo Google e por outros
  motores de busca, mas isso dificilmente conta toda a
  história
    São utilizadas muitas outras heurísticas sofisticadas
    Algumas tratam de classes específicas de consultas
    Aprendizagem de máquina é utilizado amplamente
Sec. 21.3




Hyperlink-Induced Topic Search (HITS)
 Em resposta a uma consulta, ao invés de uma lista
  ordenada de páginas, encontrar dois conjuntos de
  páginas inter-relacionadas:
    Páginas hub são boas coleções de links sobre um
     determinado assunto.
    Páginas competentes ocorrem recorrentemente em
     páginas hub sobre o assunto.
 Mais indicado para consultas mais amplas sobre um
  assunto do que para encontrar páginas específicas.
Sec. 21.3




Hubs e Competências
 Uma boa página hub sobre um
  determinado tópico aponta para várias
  páginas competentes sobre este tópico
 Uma boa página sobre um determinado
  tópico é referenciada por muitas boas
  páginas hub sobre esse tópico
 Definição circular – podemos computar de
  forma iterativa.
Sec. 21.3




 A esperança
                                  Claro
       José
                                       Competências
Hubs

                                 TIM
       Maria
                                 Oi
       Companhias de telefonia móvel
Sec. 21.3




Esquema em alto nível
 Extrair da web um conjunto base de
  páginas que podem ser bons hubs ou
  boas páginas sobre determinados
  tópicos.
 Deste conjunto, identificar um
  pequeno conjunto com as melhores
  páginas hub e páginas mais
  competentes de forma iterativa
Sec. 21.3




Conjunto base
 Dada uma consulta textual (ex. browser), usar
  um índice texto para recuperar todas as
  páginas contendo browser.
   Chamar o resultado de conjunto de páginas raiz
 Adicionar qualquer página ao conjunto que
   Aponta para uma página no conjunto raiz ou
   É referenciada por qualquer página no conjunto
    raiz.
 Chamar o resultado do conjunto base
Sec. 21.3




Visualização



                 Conjunto
                  raíz


               Conjunto base
Sec. 21.3




Destilando hubs e páginas competentes
 Computar, para cada página x no conjunto base,
  um score do hub h(x) e um score de
  competência a(x).
 Inicialização: for all x, h(x)←1; a(x) ←1;
 Atualizar iterativamente h(x), a(x);
 Depois das iterações
   Classificar as páginas com os h() mais altos como
    os top hubs
   Maior score a() é a página mais competente.
Sec. 21.3




Atualização iterativa
 Repetir as seguintes atualizações, para todo x



         h( x ) ←   ∑ a( y )
                    x y
                                       x




         a( x) ←    ∑ h( y )
                    y x
                                              x
Sec. 21.3




Escala
 Para evitar que os valores de h() e a() se
  tornem muito grandes, pode-se ajustar sua
  escala, reduzido para baixo a cada iteração.
 O fator de escala realmente não interessa:
   Nos preocupamos apenas com os valores
    relativos dos scores.
Sec. 21.3




Quantas iterações?
 Os valores relativos dos scores vão convergir
  depois de algumas poucas iterações:
   de fato, escaladas apropriadamente, os scores h()
    e a() entram em um estado de estabilização!
 Na prática, aproxima-se da estabilização após
  cerca de 5 iterações.
Sec. 21.3




Escolas Elementares do Japão
                   Hubs                                    Competências
    schools                                         The American School in Japan
    LINK Page-13                                    The Link Page
    “ú–{‚ÌŠwZ                                      ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW
    a‰„¬ŠwZƒz[ƒƒy[ƒW                          Kids' Space
    100 Schools Home Pages (English)                ˆÀés—§ˆÀé¼•”¬ŠwZ
    K-12 from Japan 10/...rnet and Education )      ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ
    http://www...iglobe.ne.jp/~IKESAN               KEIMEI GAKUEN Home Page ( Japanese )
    ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê                        Shiranuma Home Page
    ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ                            fuzoku-es.fukui-u.ac.jp
    Koulutus ja oppilaitokset                       welcome to Miasa E&J school
    TOYODA HOMEPAGE                                 _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y
    Education                                       http://www...p/~m_maru/index.html
    Cay's Homepage(Japanese)                        fukui haruyama-es HomePage
    –y“썬ŠwZ‚̃z[ƒƒy[ƒW                        Torisu primary school
    UNIVERSITY                                      goo
    ‰J—³¬ŠwZ DRAGON97-TOP                         Yakumo Elementary,Hokkaido,Japan
    Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW                  FUZOKU Home Page
    ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼                      Kamishibun Elementary School...
Sec. 21.3




Fatos interessantes
 Agrupa páginas relevantes independentemente
  de linguagem ou conteúdo.
 Usar análise de links apenas depois que o
  conjunto base estiver montado
   classificação iterativa é independente da consulta.
 Computação iterativa depois de recuperação
  textual – overhead significativo.
Sec. 21.3




Questões
 Desvio de Tópico
   Páginas fora do tópico podem fazer com que
    outras páginas fora fora do tópico sejam
    consideradas competentes
 Reforço mútuo por filiação
   Páginas ou sites afiliados podem aumentar seus
    scores trocando links
      Esse tipo de link não dá informação útil para a busca

Weitere ähnliche Inhalte

Mehr von Alexandre Duarte

Mehr von Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Kürzlich hochgeladen

Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
sh5kpmr7w7
 
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
azulassessoria9
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
PatriciaCaetano18
 

Kürzlich hochgeladen (20)

Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do século
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
 
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
 
LENDA DA MANDIOCA - leitura e interpretação
LENDA DA MANDIOCA - leitura e interpretaçãoLENDA DA MANDIOCA - leitura e interpretação
LENDA DA MANDIOCA - leitura e interpretação
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de LedAula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptx
 
3 2 - termos-integrantes-da-oracao-.pptx
3 2 - termos-integrantes-da-oracao-.pptx3 2 - termos-integrantes-da-oracao-.pptx
3 2 - termos-integrantes-da-oracao-.pptx
 
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM  POLÍGON...Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM  POLÍGON...
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
 
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
 
Poesiamodernismo fase dois. 1930 prosa e poesiapptx
Poesiamodernismo fase dois. 1930 prosa e poesiapptxPoesiamodernismo fase dois. 1930 prosa e poesiapptx
Poesiamodernismo fase dois. 1930 prosa e poesiapptx
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmico
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.
 
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxMonoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
 
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
 
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
 

Análise de Links

  • 1. Ordenação e Recuperação de Dados Aula 14: Análise de Links Alexandre Duarte alexandre@di.ufpb.br 1 1
  • 2. Aula de hoje – hipertexto e links  Veremos além do conteúdo dos documentos  Começaremos a analisar os hiperlinks entre eles  Tratar de questões como:  Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?  Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear?  Grandes áreas de aplicação  A Web  Email  Redes sociais
  • 3. Links estão em todo lugar  Poderosa ferramenta para autenticidade e autoridade  Mail spam – quais contas de e-mail são de spammers?  Qualidade de servidores – quais servidores são ruins  Log de chamadas telefônicas  O Bom, O Ruim e O Desconhecido ? Good ? ? Bad ?
  • 4. Lógica iterativa simples  O Bom, O Ruim e O Desconhecido  Bons nós não apontam para nós ruin  Todas as outras combinações são plausíveis ? Bom ? ? Ruim ? 4
  • 5. Lógica iterativa simples  Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom ? Bom ? ? Ruim ? 5
  • 6. Lógica iterativa simples  Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom Bom Ruim 6
  • 7. Muitos outros exemplos de análise de links  Redes sociais são uma rica fonte para análise de comportamento em grupo  Ex., Afinidade de compradores – Goel+Goldstein 2010  Consumidores cujos amigos gastam muito, tendem a gastar muito também  http://www.cs.cornell.edu/home/kleinber/networks-book/ 7
  • 8. Nosso principal interesse neste curso  Análogo a maioria das funcionalidades de um sistema de recuperação de informação baseado puramente em texto  Scoring e classificação  Agrupamento baseado em links  Links como critério de classificação – documentos que apontam para outros documentos tendem a tratar do mesmo assunto  Crawling  Baseado nos links já visitados, para onde ir em seguida? 8
  • 9. Sec. 21.1 A Web como um Grafo Dirigido hyperlink Página A Âncora Página B Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade) Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)
  • 12. Sec. 21.1.1 Texto âncora  Para ibm como distinguir entre :  A página da IBM (predominantemente gráfica)  Página de copyright da IBM (alta frequência do termo “ibm”)  Página spam de um rival (frequencia arbirtráriamente alta de algum termo) “ibm.com” “IBM home page” “ibm” Um milhão de textos âncora com a palavra “ibm” são um forte www.ibm.com sinal
  • 13. Sec. 21.1.1 Indexando texto âncora  Ao indexar um documento D, incluir (com algum peso) os textos âncora dos documentos com links apontando para D. Armonk, NY-based computer giant IBM announced today www.ibm.com Joe’s computer hardware Big Blue today announced links record profits for the quarter Sun HP IBM
  • 14. Sec. 21.1.1 Indexando texto âncora  Algumas vezes pode ter efeitos não esperados: exército do mal.  É possível atribuir um score ao texto âncora dependente da relevância/competência da página onde o link se encontra  Ex., se assumirmos que o conteúdo das páginas de ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam
  • 15. Sec. 21.1.1 Texto âncora  Outras aplicações  Ponderação/filtragem de links em um grafo  Geração de descrições de páginas a partir de textos âncora
  • 16. A web não cita por mérito  Milhões de participantes, com interesses individuais  Spamming é encontrado em todo lugar  Quando ferramentas de busca começaram a utilizar links para classificação (meados de 1998), o spam de links aumentou  Você pode ingressar em um grupo de websites que fazem ligações em massa entre si 16
  • 17. Links de entrada para páginas – padrões não-usuais  17
  • 18. Sec. 21.2 Pagerank  Imagine um browser fazendo uma navegação aleatória na web: 1/3  Inicia em uma página qualquer 1/3 1/3  A cada passo, sai da página atual por um de seus links, de forma equiprovável  Cada página terá, a longo prazo, uma taxa de visitação – usar isso como o score da página.
  • 19. Sec. 21.2 Isso não é suficiente  A web está cheia de becos sem saída.  Caminhamentos aleatórios podem levar a um beco sem saída.  Fica sem sentido falar em taxa de visitação a longo prazo. ??
  • 20. Sec. 21.2 Teletransporte  Em um beco sem saída, pular para uma página aleatória.  Em qualquer página que não seja um beco sem saída, manter uma chance de 10% de saltar para uma página aleatória.  Com a probabilidade restante (90%), sair por um dos links de forma aleatória.  10% - é um parâmetro.
  • 21. Sec. 21.2 Resultados do teletransporte  Nunca ficar preso em um beco sem saída  Há uma taxa de visitação a longo prazo para cada página visitada
  • 22. A realidade  Pagerank é utilizado pelo Google e por outros motores de busca, mas isso dificilmente conta toda a história  São utilizadas muitas outras heurísticas sofisticadas  Algumas tratam de classes específicas de consultas  Aprendizagem de máquina é utilizado amplamente
  • 23. Sec. 21.3 Hyperlink-Induced Topic Search (HITS)  Em resposta a uma consulta, ao invés de uma lista ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas:  Páginas hub são boas coleções de links sobre um determinado assunto.  Páginas competentes ocorrem recorrentemente em páginas hub sobre o assunto.  Mais indicado para consultas mais amplas sobre um assunto do que para encontrar páginas específicas.
  • 24. Sec. 21.3 Hubs e Competências  Uma boa página hub sobre um determinado tópico aponta para várias páginas competentes sobre este tópico  Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico  Definição circular – podemos computar de forma iterativa.
  • 25. Sec. 21.3 A esperança Claro José Competências Hubs TIM Maria Oi Companhias de telefonia móvel
  • 26. Sec. 21.3 Esquema em alto nível  Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos.  Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa
  • 27. Sec. 21.3 Conjunto base  Dada uma consulta textual (ex. browser), usar um índice texto para recuperar todas as páginas contendo browser.  Chamar o resultado de conjunto de páginas raiz  Adicionar qualquer página ao conjunto que  Aponta para uma página no conjunto raiz ou  É referenciada por qualquer página no conjunto raiz.  Chamar o resultado do conjunto base
  • 28. Sec. 21.3 Visualização Conjunto raíz Conjunto base
  • 29. Sec. 21.3 Destilando hubs e páginas competentes  Computar, para cada página x no conjunto base, um score do hub h(x) e um score de competência a(x).  Inicialização: for all x, h(x)←1; a(x) ←1;  Atualizar iterativamente h(x), a(x);  Depois das iterações  Classificar as páginas com os h() mais altos como os top hubs  Maior score a() é a página mais competente.
  • 30. Sec. 21.3 Atualização iterativa  Repetir as seguintes atualizações, para todo x h( x ) ← ∑ a( y ) x y x a( x) ← ∑ h( y ) y x x
  • 31. Sec. 21.3 Escala  Para evitar que os valores de h() e a() se tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração.  O fator de escala realmente não interessa:  Nos preocupamos apenas com os valores relativos dos scores.
  • 32. Sec. 21.3 Quantas iterações?  Os valores relativos dos scores vão convergir depois de algumas poucas iterações:  de fato, escaladas apropriadamente, os scores h() e a() entram em um estado de estabilização!  Na prática, aproxima-se da estabilização após cerca de 5 iterações.
  • 33. Sec. 21.3 Escolas Elementares do Japão Hubs Competências  schools  The American School in Japan  LINK Page-13  The Link Page  “ú–{‚ÌŠwZ  ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW  a‰„¬ŠwZƒz[ƒƒy[ƒW  Kids' Space  100 Schools Home Pages (English)  ˆÀés—§ˆÀé¼•”¬ŠwZ  K-12 from Japan 10/...rnet and Education )  ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ  http://www...iglobe.ne.jp/~IKESAN  KEIMEI GAKUEN Home Page ( Japanese )  ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê  Shiranuma Home Page  ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ  fuzoku-es.fukui-u.ac.jp  Koulutus ja oppilaitokset  welcome to Miasa E&J school  TOYODA HOMEPAGE  _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y  Education  http://www...p/~m_maru/index.html  Cay's Homepage(Japanese)  fukui haruyama-es HomePage  –y“썬ŠwZ‚̃z[ƒƒy[ƒW  Torisu primary school  UNIVERSITY  goo  ‰J—³¬ŠwZ DRAGON97-TOP  Yakumo Elementary,Hokkaido,Japan  Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW  FUZOKU Home Page  ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼  Kamishibun Elementary School...
  • 34. Sec. 21.3 Fatos interessantes  Agrupa páginas relevantes independentemente de linguagem ou conteúdo.  Usar análise de links apenas depois que o conjunto base estiver montado  classificação iterativa é independente da consulta.  Computação iterativa depois de recuperação textual – overhead significativo.
  • 35. Sec. 21.3 Questões  Desvio de Tópico  Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes  Reforço mútuo por filiação  Páginas ou sites afiliados podem aumentar seus scores trocando links  Esse tipo de link não dá informação útil para a busca