SlideShare ist ein Scribd-Unternehmen logo
1 von 85
Downloaden Sie, um offline zu lesen
Latinoware 2012 - IX Conferência Latino-Americana de Software Livre




        ORGANOGRAFOS
        Reorganizando seu
         Conteúdo Digital

           Rodrigo Dias Arruda Senra
                IC-Unicamp / Globo.com
Apenas um rapaz latino americano...

   • Engenheiro de Computação
     Graduação-MSc-(PhD em dez 2012) IC-Unicamp



   • Desenvolvedor1996, hoje na Globo.com )
     (no mercado desde
                       e Projetista de Software



   • Entusiasta de FLOSS 1999)
     (atuante na comunidade desde




                          2
Roteiro
• Provocação Filosófica
• Motivação
• Problemas
• Organografos
• Organicer (preview)


        3
Provocação
 Filosófica
Os Primeiros Nerds




         5
Os Primeiros Nerds




         5
Os Primeiros Nerds




         5
Os Primeiros Nerds




         5
Os Primeiros Nerds




         5
Os Primeiros Nerds




         5
Os Primeiros Nerds




http://www.ciencialivre.pro.br
Informação ampla e irrestrita
              5
Motivação
7
k-Means Hull          Sebastiani          Support Vector
                   Content Management
          Chen                                  Machines
    Clustering Nearest Neighbors Sokal Hierarchies
                    Information Retrieval Python
 Semantic Web                                       Neural
                      Folksonomy
 Mongo Data Sharing                 Classification Nets
                             RSS     Javascript
    Naïve Bayes        Social Networks      Visualization
  Digital Libraries     Organization          Cognition
                 Syndication      Tagging
       Jaccard              XML            Personal Desktop
CouchDB Databases
                        Feeds Go Evaluation CAPES
 User Interfaces                             Taxonomy
    Crescenzi Information Extraction                  CNPq
   Automation Cosine              NoSQL Classification
                            RDF
 Organographs Dice              Matching Wrappers
                      INCT 7                          Fapesp
8
Quantos conceitos ?




        8
Quantos conceitos ?
Em que ordem eles apareceram ?




              8
Quantos conceitos ?
Em que ordem eles apareceram ?
    Como categorizá-los ?




              8
Quantos conceitos ?
Em que ordem eles apareceram ?
    Como categorizá-los ?
       De onde vieram ?




              8
Quantos conceitos ?
  Em que ordem eles apareceram ?
       Como categorizá-los ?
          De onde vieram ?
Quais as relações entre os conceitos ?




                  8
Quantos conceitos ?
  Em que ordem eles apareceram ?
       Como categorizá-los ?
          De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?




                  8
Quantos conceitos ?
  Em que ordem eles apareceram ?
       Como categorizá-los ?
          De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
                  ...



                  8
Quantos conceitos ?
         Em que ordem eles apareceram ?
              Como categorizá-los ?
                  De onde vieram ?
      Quais as relações entre os conceitos ?
      Quais são relevantes para mim agora ?
                           ...
[Miller 1956] regra 7±2: capacidade cognitiva é limitada


                          8
Nearest Neighbors                       Evaluation                  Naïve Bayes
             Support Vector Machines        Clustering          Classification      Neural Nets
                   k-Means                                        Classification

  Sokal
  Chen
Crescenzi                              Social Networks
Sebastiani               Feeds       Folksonomy     Tagging
  Hull
                    Syndication        Taxonomy               Cognition
                          RSS        Data Sharing             Hierarchies
                                                              Automation          Personal Desktop
      Wrappers
Information Extraction               Organization                       Content Management Digital Libraries
                                                                                     Visualization
Information Retrieval
                                            Organographs
                                                                                    User Interfaces
        Dice
      Matching                     Databases
                                                                                     Fapesp
      Cosine                           NoSQL                      Go                 INCT
      Jaccard                     CouchDB    Mongo             Python                CAPES
                                                               Javascript
                                     XML RDF                                         CNPq
                                   Semantic Web



                                                         9
10
Problemas
Qual das categorias abaixo é a que melhor
acomoda o objeto acima ?




                    12
Motivação


Vermelhos ?    Triangulos ?   Relacionados ?




                    13
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




             14
Uma breve história no tempo




Muito mais difícil que
                         14
O que há de errado ?




         15
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado




                        15
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente




                        15
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito




                        15
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência



                        15
O que há de errado ?
1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência

5. Organização não é reutilizável
                        15
Objetivos
Objetivos

1. Avaliar hierarquias criadas manualmente

2. Reorganizar conteúdo dinamicamente

3. Reutilizar organização
Avaliar Hierarquias




        17
Avaliar Hierarquias

             muito conteúdo junto




        17
Avaliar Hierarquias

              muito conteúdo junto

             duplicado, deslocado




        17
Avaliar Hierarquias

              muito conteúdo junto

             duplicado, deslocado
                         muitos
                      agregadores




        17
Avaliar Hierarquias

                        muito conteúdo junto

                       duplicado, deslocado
                                   muitos
                                agregadores



profundo demais

                  17
Reorganizar conteúdo dinamicamente


        Autor
               Data de Publicação


Alice

        2011          Artigo 1

        2008          Artigo 2
Beto

         2011           Artigo 3


                                    18
Reorganizar conteúdo dinamicamente


        Autor                            Data de Publicação
               Data de Publicação              Autor


Alice

        2011          Artigo 1

        2008          Artigo 2
Beto

         2011           Artigo 3


                                    18
Reorganizar conteúdo dinamicamente


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011          Artigo 1                  Alice            Artigo 1

        2008          Artigo 2                  Beto             Artigo 3
Beto                                     2008

         2011           Artigo 3                 Alice            Artigo 2


                                    18
Reorganizar conteúdo dinamicamente
                                          a TAREFA é importante!


        Autor                                   Data de Publicação
               Data de Publicação                        Autor


Alice                                    2011
        2011          Artigo 1                  Alice            Artigo 1

        2008          Artigo 2                  Beto             Artigo 3
Beto                                     2008

         2011           Artigo 3                 Alice            Artigo 2


                                    18
Reutilizar organização




          19
Reutilizar organização




          19
Reutilizar organização




          19
Organografos
Metodologia
coleção




               21
Metodologia
coleção


          organizar




                      21
Metodologia
coleção


          organizar



                           avaliar




                      21
Metodologia
coleção


          organizar



                                         avaliar




                           reorganizar
                      21
Metodologia
coleção


              organizar



                                             avaliar



      compartilhar
                               reorganizar
                          21
22
Organografos
  ... são artefatos que tornam explícito como organizar
informação digital no contexto de uma tarefa específica.




                          22
Organographs
             O = <Hin(V,E), forg, Hout(V,E)>

Hin(V,E), Hout(V,E): Input and Output Hierarchies
forg: FHil(vagg,vagg) + FCat(vagg,vcnt)



                                          vagg     notation
                                           eagg
                                                  ecnt
                                                         vcnt
                               23
Papéis
                                  Autoria de Organografo


   NLP            Domínio             ML           Data         UX
                                                 Container




                                                                                  Autor do
                                                                                 Organofrafo




                                                                                 Organografo
Extração de   Similaridade           Classificadores         Algoritmos de
Informação                   Ontologias           Iteradores Visualização

  Algoritmos                                                                Tarefa !
                                                24
Estrutura de um Organografo
Hierarquia de Entrada:
• localização ( URL )
• Navegação (crawler/iterador)

Transformação:
  • política de extração de informação
  • Remapeamento da estrutura hierarquica (FHil)
  • Política de categorização (FCat)

Hieraquia de Saída:
• localização (URL)
• política de visualização
                             25
Execução de Organografo


                         Workflow de Transformação


Índice de
 Facetas


                                       FCat()
        Extração                       FHil()




                       Navegação da
   Pre-processamento
                        Hierarquia              Hierarquia
                                                Resultante

                   Iterador



     Hierarquia
     de Origem         Usuário do Organografo   Visualização
Implementação
Crawler:
 filesystem, relational DB, OO DB, Web
Extração de Informação:
 patterns,dictionaries, rules, probabilities, templates/wrappers
Medidas de Similaridade:
 matching, dice, jaccard, overlap, cosine
Ontologias:
 ACM subject headings, Qualis Index, SKOS
Classificadores:
 decision trees, naïve bayes, max. entropy
Visualização:
 user-mode filesystem(fuse, dokan), InfoVis toolkit (Web)

                              27
Example




   28
Example     Task: visualização

           Task: extração info

          Task: transformação




        Coleção de Entrada




   29
acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’)

organograph:
	

 input: collection(‘file:///some/local/dir/docs’)
    output: collection(‘rodsenra@dropbox:/output’)
	

 id: ‘docs by year’
	

 level:
        label: format(‘YYYY’, input.Vcnt.publication_date)
	

      level:
           classifier: naive_bayes(classes=acmccs98.Vagg[1],
                                   train=acmccs98.Vagg[2:] + acmccs98.Vcnt)
            label: classifier.class
Organicer
Organicer




   32
Organicer




   32
Organicer




   32
Organicer




   32
Organicer




   32
Conclusão
Trabalhos Relacionados
•Topic Modeling
   LSA, LDA, Hierarchical Bayesian
     Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999;
    2001


• Personal Information Management
   CALO, UMEA, X-COSIM, Haystack, UpLib, Iris
    Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003;
    Karger et al 2003


• Semantic Desktop
    Nepomuk, SEMSOC
    Giannakidou et al 2008; Groza et al 2007


• Fundamental Research
  Classification; Clusterization; NLP; Information Extraction
Resumo


• Organografos: metodologia, arquitetura,utilização
• Capturar a tarefa por trás de uma organização
• Avaliar, reorganizar e compartilhar.



                           35
Agradecimentos

• Laboratório de Sistemas de Informação (IC-Unicamp)
  http://www.lis.ic.unicamp.br
• Brazilian Institute for Web Science Research
  http://webscience.org.br
• Globo.com



                           36
http://2012.pythonbrasil.org.br
Obrigado a todos
                         pela atenção.

                            Rodrigo Dias Arruda Senra
                                 http://rodrigo.senra.nom.br
                                      rsenra@acm.org


As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.

Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que
não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material
resultante. Em caso de alterações, favor consultar o autor.

Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm
seus direitos de copyright.

Weitere ähnliche Inhalte

Ähnlich wie Latinoware2012

Web Semântica no Domínio Bibliográfico
Web Semântica no Domínio BibliográficoWeb Semântica no Domínio Bibliográfico
Web Semântica no Domínio Bibliográfico
UNESP
 
As contribuições da Web Semântica para a Catalogação
As contribuições da Web Semântica para a CatalogaçãoAs contribuições da Web Semântica para a Catalogação
As contribuições da Web Semântica para a Catalogação
UNESP
 
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de RecuperaçãoAula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Nilton Heck
 
Arquitetura de informacao sistemas de rotulacao e de organizacao
Arquitetura de informacao sistemas de rotulacao e de organizacaoArquitetura de informacao sistemas de rotulacao e de organizacao
Arquitetura de informacao sistemas de rotulacao e de organizacao
eramos7senac
 
Web Semântica, a terceira geração da Web
Web Semântica, a terceira geração da WebWeb Semântica, a terceira geração da Web
Web Semântica, a terceira geração da Web
Otávio Calaça Xavier
 
Introdução a JPA e Hibernate - TDC 2012
Introdução a JPA e Hibernate - TDC 2012Introdução a JPA e Hibernate - TDC 2012
Introdução a JPA e Hibernate - TDC 2012
Frederico Maia Arantes
 

Ähnlich wie Latinoware2012 (20)

Web Semântica no Domínio Bibliográfico
Web Semântica no Domínio BibliográficoWeb Semântica no Domínio Bibliográfico
Web Semântica no Domínio Bibliográfico
 
Estratégia de Conteúdo
Estratégia de ConteúdoEstratégia de Conteúdo
Estratégia de Conteúdo
 
As contribuições da Web Semântica para a Catalogação
As contribuições da Web Semântica para a CatalogaçãoAs contribuições da Web Semântica para a Catalogação
As contribuições da Web Semântica para a Catalogação
 
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de RecuperaçãoAula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
 
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
 
Arquitetura de informacao sistemas de rotulacao e de organizacao
Arquitetura de informacao sistemas de rotulacao e de organizacaoArquitetura de informacao sistemas de rotulacao e de organizacao
Arquitetura de informacao sistemas de rotulacao e de organizacao
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e Ontologias
 
Introdução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comIntrodução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.com
 
Web Semântica, a terceira geração da Web
Web Semântica, a terceira geração da WebWeb Semântica, a terceira geração da Web
Web Semântica, a terceira geração da Web
 
Introdução a JPA e Hibernate - TDC 2012
Introdução a JPA e Hibernate - TDC 2012Introdução a JPA e Hibernate - TDC 2012
Introdução a JPA e Hibernate - TDC 2012
 
Web Semântica, a terceira geração da Web
Web Semântica, a terceira geração da WebWeb Semântica, a terceira geração da Web
Web Semântica, a terceira geração da Web
 
Resource Description Framework (RDF)
Resource Description Framework (RDF)Resource Description Framework (RDF)
Resource Description Framework (RDF)
 
Eduardo Nicola Zágari
Eduardo Nicola ZágariEduardo Nicola Zágari
Eduardo Nicola Zágari
 
Web Semântica
Web SemânticaWeb Semântica
Web Semântica
 
Apresentação pkm e criatividade hub share
Apresentação pkm e criatividade hub shareApresentação pkm e criatividade hub share
Apresentação pkm e criatividade hub share
 
Integrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHPIntegrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHP
 
Apresentação
ApresentaçãoApresentação
Apresentação
 
Web Semântica: uma introdução
Web Semântica: uma introdução Web Semântica: uma introdução
Web Semântica: uma introdução
 
Interação semântica com Open Educational Resources e repercussões da mesma na...
Interação semântica com Open Educational Resources e repercussões da mesma na...Interação semântica com Open Educational Resources e repercussões da mesma na...
Interação semântica com Open Educational Resources e repercussões da mesma na...
 
Análise de Assunto
Análise de Assunto Análise de Assunto
Análise de Assunto
 

Mehr von Rodrigo Senra

Mehr von Rodrigo Senra (20)

Intro to Semantic Web for Work & Co
Intro to Semantic Web for Work & CoIntro to Semantic Web for Work & Co
Intro to Semantic Web for Work & Co
 
Cientista de Dados - A profissão mais sexy do século 21
Cientista de Dados - A profissão mais sexy do século 21Cientista de Dados - A profissão mais sexy do século 21
Cientista de Dados - A profissão mais sexy do século 21
 
Python: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de DadosPython: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de Dados
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de Dados
 
Cientista de Dados
Cientista de DadosCientista de Dados
Cientista de Dados
 
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
 
Brainiak: Um plano maligno de dominação semântica hipermídia
Brainiak: Um plano maligno de dominação semântica hipermídiaBrainiak: Um plano maligno de dominação semântica hipermídia
Brainiak: Um plano maligno de dominação semântica hipermídia
 
Rupy2014 - Show Pyrotécnico
Rupy2014 - Show PyrotécnicoRupy2014 - Show Pyrotécnico
Rupy2014 - Show Pyrotécnico
 
Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia
 
Tech talk about iswc2013
Tech talk about iswc2013Tech talk about iswc2013
Tech talk about iswc2013
 
Show Pyrotécnico - Keynote PythonBrasil[9] 2013
Show Pyrotécnico - Keynote PythonBrasil[9] 2013Show Pyrotécnico - Keynote PythonBrasil[9] 2013
Show Pyrotécnico - Keynote PythonBrasil[9] 2013
 
Linked data at globo.com
Linked data at globo.comLinked data at globo.com
Linked data at globo.com
 
Depurador onisciente
Depurador oniscienteDepurador onisciente
Depurador onisciente
 
Tese phd
Tese phdTese phd
Tese phd
 
Uma breve história no tempo...da computação
Uma breve história no tempo...da computaçãoUma breve história no tempo...da computação
Uma breve história no tempo...da computação
 
Cases de Python no 7Masters 2012
Cases de Python no 7Masters 2012Cases de Python no 7Masters 2012
Cases de Python no 7Masters 2012
 
pa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processingpa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processing
 
Python: Cabe no seu bolso, no seu micro, no seu cérebro.
Python: Cabe no seu bolso, no seu micro, no seu cérebro.Python: Cabe no seu bolso, no seu micro, no seu cérebro.
Python: Cabe no seu bolso, no seu micro, no seu cérebro.
 
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
 
Rest, Gateway e Compiladores
Rest, Gateway e CompiladoresRest, Gateway e Compiladores
Rest, Gateway e Compiladores
 

Kürzlich hochgeladen

Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
Natalia Granato
 

Kürzlich hochgeladen (6)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 

Latinoware2012

  • 1. Latinoware 2012 - IX Conferência Latino-Americana de Software Livre ORGANOGRAFOS Reorganizando seu Conteúdo Digital Rodrigo Dias Arruda Senra IC-Unicamp / Globo.com
  • 2. Apenas um rapaz latino americano... • Engenheiro de Computação Graduação-MSc-(PhD em dez 2012) IC-Unicamp • Desenvolvedor1996, hoje na Globo.com ) (no mercado desde e Projetista de Software • Entusiasta de FLOSS 1999) (atuante na comunidade desde 2
  • 3. Roteiro • Provocação Filosófica • Motivação • Problemas • Organografos • Organicer (preview) 3
  • 13. 7
  • 14. k-Means Hull Sebastiani Support Vector Content Management Chen Machines Clustering Nearest Neighbors Sokal Hierarchies Information Retrieval Python Semantic Web Neural Folksonomy Mongo Data Sharing Classification Nets RSS Javascript Naïve Bayes Social Networks Visualization Digital Libraries Organization Cognition Syndication Tagging Jaccard XML Personal Desktop CouchDB Databases Feeds Go Evaluation CAPES User Interfaces Taxonomy Crescenzi Information Extraction CNPq Automation Cosine NoSQL Classification RDF Organographs Dice Matching Wrappers INCT 7 Fapesp
  • 15. 8
  • 17. Quantos conceitos ? Em que ordem eles apareceram ? 8
  • 18. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? 8
  • 19. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? 8
  • 20. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? 8
  • 21. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? 8
  • 22. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? ... 8
  • 23. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? ... [Miller 1956] regra 7±2: capacidade cognitiva é limitada 8
  • 24. Nearest Neighbors Evaluation Naïve Bayes Support Vector Machines Clustering Classification Neural Nets k-Means Classification Sokal Chen Crescenzi Social Networks Sebastiani Feeds Folksonomy Tagging Hull Syndication Taxonomy Cognition RSS Data Sharing Hierarchies Automation Personal Desktop Wrappers Information Extraction Organization Content Management Digital Libraries Visualization Information Retrieval Organographs User Interfaces Dice Matching Databases Fapesp Cosine NoSQL Go INCT Jaccard CouchDB Mongo Python CAPES Javascript XML RDF CNPq Semantic Web 9
  • 25. 10
  • 27. Qual das categorias abaixo é a que melhor acomoda o objeto acima ? 12
  • 28. Motivação Vermelhos ? Triangulos ? Relacionados ? 13
  • 29. Uma breve história no tempo 14
  • 30. Uma breve história no tempo 14
  • 31. Uma breve história no tempo 14
  • 32. Uma breve história no tempo 14
  • 33. Uma breve história no tempo 14
  • 34. Uma breve história no tempo 14
  • 35. Uma breve história no tempo 14
  • 36. Uma breve história no tempo 14
  • 37. Uma breve história no tempo Muito mais difícil que 14
  • 38. O que há de errado ? 15
  • 39. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 15
  • 40. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 15
  • 41. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 3. Critério não é explícito 15
  • 42. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 3. Critério não é explícito 4. Relação estática de pertinência 15
  • 43. O que há de errado ? 1. Única categoria para conteúdo Multi-facetado 2. Categorias definidas manualmente 3. Critério não é explícito 4. Relação estática de pertinência 5. Organização não é reutilizável 15
  • 45. Objetivos 1. Avaliar hierarquias criadas manualmente 2. Reorganizar conteúdo dinamicamente 3. Reutilizar organização
  • 47. Avaliar Hierarquias muito conteúdo junto 17
  • 48. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado 17
  • 49. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado muitos agregadores 17
  • 50. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado muitos agregadores profundo demais 17
  • 51. Reorganizar conteúdo dinamicamente Autor Data de Publicação Alice 2011 Artigo 1 2008 Artigo 2 Beto 2011 Artigo 3 18
  • 52. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 Artigo 1 2008 Artigo 2 Beto 2011 Artigo 3 18
  • 53. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Artigo 1 Alice Artigo 1 2008 Artigo 2 Beto Artigo 3 Beto 2008 2011 Artigo 3 Alice Artigo 2 18
  • 54. Reorganizar conteúdo dinamicamente a TAREFA é importante! Autor Data de Publicação Data de Publicação Autor Alice 2011 2011 Artigo 1 Alice Artigo 1 2008 Artigo 2 Beto Artigo 3 Beto 2008 2011 Artigo 3 Alice Artigo 2 18
  • 60. Metodologia coleção organizar 21
  • 61. Metodologia coleção organizar avaliar 21
  • 62. Metodologia coleção organizar avaliar reorganizar 21
  • 63. Metodologia coleção organizar avaliar compartilhar reorganizar 21
  • 64. 22
  • 65. Organografos ... são artefatos que tornam explícito como organizar informação digital no contexto de uma tarefa específica. 22
  • 66. Organographs O = <Hin(V,E), forg, Hout(V,E)> Hin(V,E), Hout(V,E): Input and Output Hierarchies forg: FHil(vagg,vagg) + FCat(vagg,vcnt) vagg notation eagg ecnt vcnt 23
  • 67. Papéis Autoria de Organografo NLP Domínio ML Data UX Container Autor do Organofrafo Organografo Extração de Similaridade Classificadores Algoritmos de Informação Ontologias Iteradores Visualização Algoritmos Tarefa ! 24
  • 68. Estrutura de um Organografo Hierarquia de Entrada: • localização ( URL ) • Navegação (crawler/iterador) Transformação: • política de extração de informação • Remapeamento da estrutura hierarquica (FHil) • Política de categorização (FCat) Hieraquia de Saída: • localização (URL) • política de visualização 25
  • 69. Execução de Organografo Workflow de Transformação Índice de Facetas FCat() Extração FHil() Navegação da Pre-processamento Hierarquia Hierarquia Resultante Iterador Hierarquia de Origem Usuário do Organografo Visualização
  • 70. Implementação Crawler: filesystem, relational DB, OO DB, Web Extração de Informação: patterns,dictionaries, rules, probabilities, templates/wrappers Medidas de Similaridade: matching, dice, jaccard, overlap, cosine Ontologias: ACM subject headings, Qualis Index, SKOS Classificadores: decision trees, naïve bayes, max. entropy Visualização: user-mode filesystem(fuse, dokan), InfoVis toolkit (Web) 27
  • 71. Example 28
  • 72. Example Task: visualização Task: extração info Task: transformação Coleção de Entrada 29
  • 73. acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’) organograph: input: collection(‘file:///some/local/dir/docs’) output: collection(‘rodsenra@dropbox:/output’) id: ‘docs by year’ level: label: format(‘YYYY’, input.Vcnt.publication_date) level: classifier: naive_bayes(classes=acmccs98.Vagg[1], train=acmccs98.Vagg[2:] + acmccs98.Vcnt) label: classifier.class
  • 75. Organicer 32
  • 76. Organicer 32
  • 77. Organicer 32
  • 78. Organicer 32
  • 79. Organicer 32
  • 81. Trabalhos Relacionados •Topic Modeling LSA, LDA, Hierarchical Bayesian Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999; 2001 • Personal Information Management CALO, UMEA, X-COSIM, Haystack, UpLib, Iris Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003; Karger et al 2003 • Semantic Desktop Nepomuk, SEMSOC Giannakidou et al 2008; Groza et al 2007 • Fundamental Research Classification; Clusterization; NLP; Information Extraction
  • 82. Resumo • Organografos: metodologia, arquitetura,utilização • Capturar a tarefa por trás de uma organização • Avaliar, reorganizar e compartilhar. 35
  • 83. Agradecimentos • Laboratório de Sistemas de Informação (IC-Unicamp) http://www.lis.ic.unicamp.br • Brazilian Institute for Web Science Research http://webscience.org.br • Globo.com 36
  • 85. Obrigado a todos pela atenção. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rsenra@acm.org As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra. Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Em caso de alterações, favor consultar o autor. Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright.