Tag Suggestion using Multiple Sources of Knowledge
1. Tag suggestion using multiple sources of knowledge Ícaro Medeiros Fred Freitas H. Sofia Pinto 19/07/2010
2. Roteiro Introdução Sistemas de tagging social e folksonomias Motivação Trabalho relacionado Sugestão de tags ANTaReS Implementação Resultados Discussão Conclusão
6. Tagging social: atributos Tags são palavras-chave escolhidas livremente NÃO HÁ vocabulário pré-definido (Mathes, 2004) Encoraja a atribuição de tags Atribuição é geralmente colaborativa São também redes sociais e/ou agregadores de conteúdo publicado por usuários Organização de conteúdo aumenta a popularidade dos STS
8. Folksonomias Resultado de usuáriosinteragindo com o STS aoatribuirtags a recursos Tags Colaborativas+ Semântica emergindo da comunidade = Classificação baixo-cima conhecida como folksonomia(Mathes, 2004)
9. Desvantagens de STS Vocabulário livre leva à ambiguidade Polissemia: whistle (instrumento) e whistle (som) Homonímia: Java (linguagem) e Java (café) Sinônimos: Buy/purchase Palavras ligadas: webdev, semweb, semantic_web Tags populares no Delicious 25-10-09
11. tags? tags! Processo de sugestão de tags STS “pede” TAGS! usa upload analiza Recurso Sistema de Sugestão Folksonomia gosta de analiza prediz são sugeridas tag1 tag2 tags
12. Sugestão no Delicious Tags mais usadas para um recurso Intersecção com folksonomia pessoal
13. Vantagens da sugestão(Heymannet al.,2008b) Convergência de vocabulário Cobertura maior para consultas por tags Concordância entre usuários Desambiguação de tags Bootstrapping
15. Filtragem colaborativa Dados os recursos A com tags {x,y} B com tags {z,w} E um novo documento C Sugerir ao recurso C tags do documento mais similar (A)(Jäschkeet al., 2007) Só sugere termos que já estão na folksonomia
16. Aprendizagem de Máquina Aprenderpadrões para “saber” quando um termo pode ser usado como tag Página Web Corpus Página Web Classificador Recursos Treinamento Classificador Novo recurso tag1, tag2 tag1, tag2 tag1, tag2 tag3, tag4
17. Sugestão de Tag com AM Termos - conjunto de atributos (features) Um classificador é construído por padrões desses atributos Ex: Um termo no títulopode ser uma boa tag Métodos Máquinas de Vetor Suporte (Wang and Davison, 2008)
19. Objetivos Sugerir tags a páginas Web Especialmente (novas) palavras-chave não presentes na folksonomia O método deve ser capaz de se adaptar à dinâmicas de vocabulário Aprendizagem de Máquina
24. Texto da páginaInbound link Delicious (website) - Wikipedia Delicious is a social bookmarking web service
25. Bases de conhecimento Termos Relacionados del.icio.us Wordnet <description> leading social bookmarking service </> The tastiest bookmarks on the web. consultas Ex: Sinônimos de termos relevantes de páginas Web
26. Metodologia Um classificador (SVM) para cada fonte Resultados combinados são usados para predizer se um termo é uma tag ou não Análises Fonte x Tags Comparação com tags do Delicious Comparação com trabalhos relacionados Avaliação dos por usuários
28. Extração do dataset Tags maispopulares no Delicious (199) Para cada top tag, páginaspopularesusando-as foramrecuperadas(~ 7 págs/tag) Para cadapágina, as tags maisusadasparaelaforamextraídas(~ 9.8 tags/pág) Resultado: 1394páginas 13667 tags (2201 únicas)
29. Fontes x Tags Das tags do Delicious, quantas são encontradas No texto Nas páginas Inbound Nos termos relacionados do Wordnet
31. Impacto dos atributos Conhecer sua natureza Medidas padrão (%): Precisão, Cobertura (recall), F-1 Cobertura calculada usando apenas tags encontradas na fonte testada Experimentos Cada atributo isoladamente Removendo um atributo do conjunto total Adicionando atributos ao conjunto um por um
47. Conclusão Sugestão de tags com vários atributos de múltiplas fontes de informação Tagsnovas e interessantes Objetivos cumpridos A solução pode ser usada em cenários reais
48. Trabalhos futuros Ajustar parâmetros dos métodos de AM Melhorar com o uso Ranking vs. Classificação Abordagem híbrida Melhorar resultado pra páginas com pouco texto Avaliação de usuários maior
49. Referências P. Heymann, D. Ramage, and H. Garcia-Molina (2008). Social tag prediction. International SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pages 531-538. ACM. R. Jäschke, L. Marinho, A. Hotho, L. Schmidt-Thieme, and G. Stumme (2007). Tag recommendations in folksonomies. EuropeanConference on Principles and Practice of Knowledge Discovery in Databases, pages 506-514. Springer-Verlag. A. Mathes (2004). Folksonomiescooperativeclassicationand communication through shared metadata. http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.pdf.
50. Referências II Y. Song, L. Zhuang , H. Li, Q. Zhao, J. Li,W.-C Lee, and C.L. Giles (2008a). Real-time automatic tag recommendation. In International Conference on Research and Development in Information Retrieval (SIGIR), pages 515–522. ACM. Y. Song, L. Zhang, and C. L. Giles (2008b). A sparse gaussian processes classification framework for fast tag suggestions. In Proceeding of the ACM conference on Information and Knowledge Management (CIKM), pages 93-102. ACM. J. Wang and B. D. Davison (2008). Explorations in tag suggestion and query expansion. In SSM '08: Proceeding of the 2008 ACM Workshop on Search in Social Media, pages 43-50. ACM.
Notas do Editor
- CONTEXTO DAS SOLUÇÕES DE SUGESTÃO DE TAGS- ORGANIZAÇÃO DE PÁGINAS
TAGS NUM DOS SITES MAIS POPULARES DA WEB DESCRIÇÃO E ORGANIZAÇÃO SERIA MAIS DIFÍCIL SEM TAGS
- N HÁ CLASSIFICAÇÃO HIERÁRQUICA, DITA MTO RÍGIDA P CLASSIFICAR DADOS NA WEB- AGREGADORES -> SISTEMAS DE COMPARTILHAMENTO DE RECURSOS (URLS NO DELICIOUS, VIDEOS NO YOUTUBE)
POPULAR TAGSRAILS ( SEE MORE ) RUBY, PROGRAMAÇÃO
FOLK + TAXONOMY
PALAVRAS LIGADAS = BINDED WORDS
// Coffee não é uma boa tag pra descrever essa página
[FIM] PROCESSO “GENÉRICO”... EXEMPLO – SUGESTÃO NO DELICIOUS. . .
PARA UM RECURSO – JÁ Q VÁRIOS USUÁRIOS PODEM ENVIAR A MESMA URL
DESAMBIGUAÇÃO – JAVA (ÚNICA TAG EM PÁGS SOBRE LING E CAFÉ)- ATÉ AQUI == O QUE E PORQUÊ DE SUGESTÃO. MAS COMO?
TREINAMENTO = DATASET DELICIOUS (PÁGS,TAGS)
AM – MAIS USADA E COM BONS RESULTADOS EM SUGESTÃOMÁQUINA VETOR SUPORTE – USADA COM SUCESSO EM DIVERSAS APLICAÇÕES, ESPECIALMENTE EM TAREFAS ENVOLVENDO TEXTO
NÃO É SISTEMA, É SOLUÇÃO!!!!
// total number of 15 features
// Delicious is not a goodexample of inboundanchor
-- VERMELHO – TERMOS RELEVANTES NA PÁGINA ALVO-- EX: QTAS VEZES UM TERMO APARECEU COMO RELACIONADO NAS VÁRIAS CONSULTAS
CLASSIFICADOR SVM (MAS A SOLUÇÃO É INDEPENDENTE DE MÉTODO)
PRECISÃO: DOS TERMOS CLASSIFICADOS COMO TAGS, QTAS DECISÕES FORAM CORRETASCOBERTURA: DE TODAS AS TAGS, QTAS FORAM CORRETAMENTE CLASSIFICADAS?
N DÁ PRA DESCREVER TODAS AS FEATURES, ALGUMAS SÃO ÓBVIAS PELO NOMEPRECISÃO TITLE - RECALL IDF
!!!!!!EXPERIMENTO INBOUND N CONVERGIU!!!!!INBOUND INBOUNDINBOUND
RESULTADOS QUE MAIS “GANHAM” COM A REMOÇÃO DE UM ATRIBUTO, A DIFERENÇA É MÍNIMAHÁ REDUDÂNCIA NA INFORMAÇÃO QUE OS ATRIBUTOS CARREGAM
TODAS AS FEATURES SÃO IMPORTANTES, INFLUI DIRETAMENTE NA PERDA DE F-1
VOLTAR AO SLIDE 30!!! FREQUENCY OF OCCURRENCE DOMINA AS OUTRAS FEATURES
NÃO FOI FEITO EXPERIMENTO PARA WORDNET E INBOUND (REDUDANTE COM O ANTERIOR)
RECALL CONDIZENTE COM A ANÁLISE FONTES X TAGS
==CLASSIFICADOR INBOUND “ATRAPALHA” A DECISÃO DOS OUTROS
DATASET USADO EM 2008B
COVERAGE – Similar A COBERTURANOVELTY - tags marked as goodbutnotassigned
Precision1 – QUASE TODAS AS TAGS FORAM CONSIDERADAS BOAS POR PELO MENOS 1 USUARIOPrecision3 - User-agreement is difficultCoverage - Usersand ANTaReS use differentvocabularies. Lots of synonyms (pageand site) andbindedwords (user: “webpage”, antares: “web”, “page”)Novelty:2/10 tags werenotthought of byuser, notobvious