Organografos: Reorganizando seu conteúdo digital.
A era digital está nos inundando de informação. Hierarquias são os padrões cognitivos que nos permitem reduzir o espaço de informação para uma dimensão compatível com nossos limites cognitivos. Nossas ferramentas de gerenciamento de conteúdo digital usam e abusam de hierarquias, mas há muito o que melhorar. Não temos mecanismos para avaliar a qualidade de uma organização, construímos intuitivamente hierarquias estáticas, e somos incapazes de compartilhar facilmente nossos critérios organizacionais. Nesta palestra, discutiremos estes temas e uma nova abordagem de organização de informação digital que permita a construção de hierarquias dinâmicas, contextuais, reconfiguráveis e compartilháveis.
1. Latinoware 2012 - IX Conferência Latino-Americana de Software Livre
ORGANOGRAFOS
Reorganizando seu
Conteúdo Digital
Rodrigo Dias Arruda Senra
IC-Unicamp / Globo.com
2. Apenas um rapaz latino americano...
• Engenheiro de Computação
Graduação-MSc-(PhD em dez 2012) IC-Unicamp
• Desenvolvedor1996, hoje na Globo.com )
(no mercado desde
e Projetista de Software
• Entusiasta de FLOSS 1999)
(atuante na comunidade desde
2
19. Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
8
20. Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
8
21. Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
8
22. Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
...
8
23. Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
...
[Miller 1956] regra 7±2: capacidade cognitiva é limitada
8
24. Nearest Neighbors Evaluation Naïve Bayes
Support Vector Machines Clustering Classification Neural Nets
k-Means Classification
Sokal
Chen
Crescenzi Social Networks
Sebastiani Feeds Folksonomy Tagging
Hull
Syndication Taxonomy Cognition
RSS Data Sharing Hierarchies
Automation Personal Desktop
Wrappers
Information Extraction Organization Content Management Digital Libraries
Visualization
Information Retrieval
Organographs
User Interfaces
Dice
Matching Databases
Fapesp
Cosine NoSQL Go INCT
Jaccard CouchDB Mongo Python CAPES
Javascript
XML RDF CNPq
Semantic Web
9
39. O que há de errado ?
1. Única categoria para conteúdo Multi-facetado
15
40. O que há de errado ?
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
15
41. O que há de errado ?
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
3. Critério não é explícito
15
42. O que há de errado ?
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
3. Critério não é explícito
4. Relação estática de pertinência
15
43. O que há de errado ?
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
3. Critério não é explícito
4. Relação estática de pertinência
5. Organização não é reutilizável
15
52. Reorganizar conteúdo dinamicamente
Autor Data de Publicação
Data de Publicação Autor
Alice
2011 Artigo 1
2008 Artigo 2
Beto
2011 Artigo 3
18
53. Reorganizar conteúdo dinamicamente
Autor Data de Publicação
Data de Publicação Autor
Alice 2011
2011 Artigo 1 Alice Artigo 1
2008 Artigo 2 Beto Artigo 3
Beto 2008
2011 Artigo 3 Alice Artigo 2
18
54. Reorganizar conteúdo dinamicamente
a TAREFA é importante!
Autor Data de Publicação
Data de Publicação Autor
Alice 2011
2011 Artigo 1 Alice Artigo 1
2008 Artigo 2 Beto Artigo 3
Beto 2008
2011 Artigo 3 Alice Artigo 2
18
67. Papéis
Autoria de Organografo
NLP Domínio ML Data UX
Container
Autor do
Organofrafo
Organografo
Extração de Similaridade Classificadores Algoritmos de
Informação Ontologias Iteradores Visualização
Algoritmos Tarefa !
24
68. Estrutura de um Organografo
Hierarquia de Entrada:
• localização ( URL )
• Navegação (crawler/iterador)
Transformação:
• política de extração de informação
• Remapeamento da estrutura hierarquica (FHil)
• Política de categorização (FCat)
Hieraquia de Saída:
• localização (URL)
• política de visualização
25
69. Execução de Organografo
Workflow de Transformação
Índice de
Facetas
FCat()
Extração FHil()
Navegação da
Pre-processamento
Hierarquia Hierarquia
Resultante
Iterador
Hierarquia
de Origem Usuário do Organografo Visualização
81. Trabalhos Relacionados
•Topic Modeling
LSA, LDA, Hierarchical Bayesian
Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999;
2001
• Personal Information Management
CALO, UMEA, X-COSIM, Haystack, UpLib, Iris
Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003;
Karger et al 2003
• Semantic Desktop
Nepomuk, SEMSOC
Giannakidou et al 2008; Groza et al 2007
• Fundamental Research
Classification; Clusterization; NLP; Information Extraction
82. Resumo
• Organografos: metodologia, arquitetura,utilização
• Capturar a tarefa por trás de uma organização
• Avaliar, reorganizar e compartilhar.
35
83. Agradecimentos
• Laboratório de Sistemas de Informação (IC-Unicamp)
http://www.lis.ic.unicamp.br
• Brazilian Institute for Web Science Research
http://webscience.org.br
• Globo.com
36
85. Obrigado a todos
pela atenção.
Rodrigo Dias Arruda Senra
http://rodrigo.senra.nom.br
rsenra@acm.org
As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.
Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que
não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material
resultante. Em caso de alterações, favor consultar o autor.
Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm
seus direitos de copyright.