Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
1. 1/30
Anotação Semântica de Conteúdo Web
Utilizando Micro-formatos e RDFa
Mestrado em Sistemas e Computação
Sistemas Web e Hipermídia
Prof. Celso Saibel
Luiz Matos – luizmatos.eti.br
Salvador, Maio de 2008
3. 3/30
INTRODUÇÃO
Motivação
O usuário da Web, além de consumidor, torna-se produtor
de informação;
Crescimento significativo da quantidade de informação
disponível;
Maior complexidade no processo de obtenção de
informação útil;
Estrutura dos dados interpretável somente por humanos.
4. 4/30
INTRODUÇÃO
Usuários de Internet no mundo em 2007: ~1,3 bi (STATS, 2008)
Média de crescimento entre 2000 e 2007: ~265% (STATS, 2008)
Páginas indexadas pelo Google em 2006: ~20 bi (ALLSOPP, 2007;
GOOGLE SEARCH, 2008)
(STATS, 2008)
5. 5/30
Tipo de Arquivos Quantidade
Páginas Web 6.046.425.000
Documentos /
Programas
170.369.580
Web Semântica 28.021.500
Multimídia 3.404.532
TOTAL 6.248.220.612
Resultados de busca em Google.com no dia
20/02/2008. (palavra-chave: filetype:arq)
INTRODUÇÃO
Usuários da Internet no Mundo
(STATS, 2008)
6. 6/30
Objetivo
Apresentar os princípios da Web Semântica e duas
alternativas para a anotação de conteúdo Web: micro-
formatos e RDFa.
Metodologia
Levantamento bibliográfico;
Leitura e sumarização das idéias;
Implementação do exemplo prático;
Documentação (artigo + apresentação).
INTRODUÇÃO
7. 7/30
Web Semântica
Uma extensão da Web atual para permitir que os
computadores e as pessoas cooperem entre si.
Fornece um significado bem definido ao conteúdo Web.
Permite que as máquinas interpretem a semântica dos
documentos e dos dados.
Linguagens não direcionadas ao humano.
(BERNERS-LEE e outros, 2001;
OSSENBRUGGEN e outros, 2002)
INTRODUÇÃO
8. 8/30
Web Semântica
Ontologias: especificação explícita de uma conceitualização.
RDF: descrição de informação/recursos na Web.
OWL: representação formal das ontologias.
GRDDL: junta informações representadas em variações de
XML/XHTML em uma representação comum.
SPARQL: linguagem de consulta e um protocolo de acesso a
dados.
Frameworks: desenvolvimento de aplicações. Ex.: JENA, RAP.
INTRODUÇÃO
(GRUBER, 1993; RDF, 2004; OWL, 2004; GRDDL, 2007;
SPARQL, 2008; MCBRIDE, 2005; WESTPHAL e BIZER, 2004)
9. 9/30
• Anotação Semântica
“Esquema específico para geração e uso de metadados,
possibilitando novos métodos de acesso a informação”.
(KIRYAKOV e outros, 2003)
“É a representação do conteúdo em uma linguagem
formal e adicionada ao documento”.
(EUZENAT, 2002)
INTRODUÇÃO
10. 10/30
Aumentar o significado de um conteúdo específico;
Tornar o conteúdo interpretável por aplicações;
Entender a estrutura do documento e recuperar
informação;
(EUZENAT, 2002;
KIRYAKOV e outros, 2003)
INTRODUÇÃO
• Benefícios
11. 11/30
O que são?
Um conjunto de formatos de dados simples construídos
sobre padrões existentes e adotados em larga escala.
(ALLSOPP, 2007)
Por quê?
Resolver o problema de criação de uma semântica de
marcação para a Web atual;
Enquanto mecanismos mais complexos, como o RDF, não
se estabelecem aplica-se a “lowercase semantic web”.
(MICROFORMATS, 2008; ÇELIK e KHARE, 2006)
MICRO-FORMATOS
12. 12/30
Princípios
Resolver um problema específico;
Simplicidades e Modularidade;
Primeiramente para humanos, depois para máquinas.
(MICROFORMATS, 2008; ÇELIK e KHARE, 2006)
MICRO-FORMATOS
15. 15/30
Especificações em Micro-formatos (µFs):
hCard: informações de contato de pessoas ou organizações.
hCalendar: informações de eventos (seminários, reuniões, etc).
XFN: relacionamentos entre pessoas.
hReview: revisões/avaliações na Web.
hResume: publicação de curriculum.
geo: marcação de coordenadas geográficas.
Entre outras..
MICRO-FORMATOS
16. 16/30
Estado da Arte
Micro-formatos + RDF + OWL + GRDDL;
- Como em (QUINT et all, 2006), (SCHAPRANOW, 2006) e outros.
Adoção pelos “gigantes” da computação e Internet;
- “We need microformats.” (Bill Gates)
- Yahoo! lança serviço específico para páginas com micro-formatos
Adoção pela indústria dos navegadores:
- Plugins Firefox: Operator, Tails Export
MICRO-FORMATOS
17. 17/30
O que é?
Conjunto de atributos utilizados em linguagens como o HTML e
o XHTML, para expressar a estrutura dos dados em páginas Web.
Por quê?
Embutir estruturas RDF em documentos XHTML válidos para
descrever metadados.
Meio termo da Web Semântica ?!?
Proposta W3C para os micro-formatos ?!?
RDFa
(RDFa, 2008)
18. 18/30
Sujeito: indicado pelo atributo about
Predicado: representado pelos atributos property, rel ou rev
Objeto: utilizam-se os atributos href, resource ou src
Literal: o atributo utilizado é o content junto com um
atributo opcional chamado datatype ou conteúdo do
elemento
RDFa
Sujeito
Predicado
Objeto
20. 20/30
RDFa
Estado da Arte
Nativo no XHTML 2.0 (ainda não disponível);
Sintaxe diferenciada do HTML padrão;
Estudos muito recentes;
Tema de discussão no WWW2008.
Fonte: http://www.w3c.org
21. 21/30
EXEMPLO PRÁTICO
Descrição das Etapas
Informações sobre um evento foram inseridas em duas páginas XHTML,
cada uma com anotação semântica em um formato específico.
Transformação do documento XHTML em um conjunto de dados RDF.
Realização de consultas SPARQL
28. 28/30
Diante do:
Crescimento exponencial de dados na Web;
Complexidade de manutenção e recuperação de informação útil;
Abordamos:
Os princípios básicos relacionados à proposta da Web Semântica.
Apresentamos:
Duas alternativas de anotação semântica do conteúdo Web:
micro-formatos e RDFa.
Realizamos:
Um exemplo prático com anotação semântica e manipulação de
dados.
CONSIDERAÇÕES FINAIS
29. 29/30
Micro-formatos: solução mais apropriada para a
marcação semântica do que as propostas oficiais;
RDFa: possui facilidades semelhantes às dos micro-
formatos, porém, ainda não possui uma versão final;
A existência de qualquer mecanismo de anotação
semântica é mais benéfico do que a sua total ausência.
CONSIDERAÇÕES FINAIS
30. 30/30
ALLSOPP, John. Microformats: empowering your markup for web 2.0. New York: Springer, 2007.
EUZENAT, Jérôme. Eight Questions About Semantic Web Annotations. IEEE Intelligent System,
vol. 17, n. 2, pp. 55-62, 2002.
GRDDL. Gleaning Resource Descriptions from Dialects of Languages. Disponível em: <http://www.w3.org/
TR/grddl/>. Acesso em: 21 fev. 2008.
KIRYAKOV, Atanas; POPOV, Borislav; TERZIEV, Ivan; MANOV, Dimitar; OGNYANOFF, Damyan. Semantic
annotation, indexing and retrieval. Journal of Web Semantics, ISWC 2003 Special Issue, 1(2):671–680,
2004.
MCBRIDE, Brian. An Introduction to RDF and the Jena RDF API, 2005. Disponível em:
<http://jena.sourceforge.net/tutorial/RDF_API/index.html>. Acesso em: 27 fev. 2008.
MICROFORMATS. Website dos Micro-formatos. Disponível em: <http://www.microformats.org>. Acesso
em: 20 fev. 2008.
OSSENBRUGGEN, Jacco van; HARDMAN, Lynda; RUTLEDGE, Lloyd. Hypermedia and the Semantic Web: a
research agenda. Journal of Digital Information, vol. 3, n. 1, 2002.
QUINT, Vincent; VATTON, Irène; FLORES, Francesc Campoy. Templates, Microformats and Structured
Editing. Document Engineering 06, Out. 2006.
RDF. Resource Description Framework (RDF): Concepts and Abstract Syntax. W3C Recommendation, 2004.
Disponível em: <http://www.w3.org/TR/rdf-concepts/>. Acesso em: 22 fev. 2008.
SCHAPRANOW, Matthieu-P. Microformats: a xml-document-immanent way for semantic annotations
of web contents. University of Potsdam, Hasso-Plattner-Institute for IT Systems Engineering, 2006.
SPARQL. Query Language for RDF W3C Recommendation, 2008. Disponível em: <http://www.w3.org/TR/
rdf-sparql-query/>. Acesso em: 22 fev. 2008.
THOMPSON, Henry S. Formalising the Proximate Semantics of XML Languages with UML, OWL and GRDDL.
In: XTech Conference, França, 2007.
WESTPHAL, Daniel; BIZER, Chris. Introduction to RAP, 2004. Disponível em: <http://www4.wiwiss.fu-
berlin.de/bizer/rdfapi/tutorial/introductionToRAP.htm>. Acesso em: 20 fev. 2008.
ÇELIK, Tantek; KHARE, Rohit. Microformats: a pragmatic path to the semantic web. WWW 2006, Maio,
2006.
REFERÊNCIAS
Hinweis der Redaktion
microformats are a whole new approach to solving the problem
of how to best mark up certain types of commonly used content on the Web. (ALLSOPP, 2007)
This approach includes a set of underlying principles, of which two of the most important are
“solve a specific problem” and “reuse building blocks from widely adopted standards.”
. . . a set of simple open data format standards that many are actively developing and implementing for more/better structured blogging and web microcontent publishing in general.