Presentation about Ontologies at my Masters (UFMG, pt_BR)
1. ONTOLOGIAS: uma reflexão
sobre sistemas de organização do
conhecimento e sistemas de
recuperação de informação
Amanda Damasceno de Souza
Claudiney Vander Ramos
Fernanda Farinelli
Jose Alberto Grossi Junior
Lucélia Branquinho
Rogério Amaral Bonatti
2. Sumário
1. Introdução
2. Representação do conhecimento
• Sistemas de Organização do Conhecimento
• Sistemas de Recuperação de Informação
• Ontologias
3. Modelos conceituais como sistemas de
organização do conhecimento
4. Ontologias biomédicas
5. Ontologias para sistemas de informação
6. Ontologias para recuperação de informação
7. Ontologias e mineração de dados
8. Ontologias e grafos
3. Introdução
• Heterogeneidade dos dados e informações.
o Desafio: recuperação, acesso, representação,
organização, apresentação e manutenção de
informações. • Estudos na CI voltados para a organização,
representação e recuperação da informação e do
conhecimento.
o Sistemas de Recuperação da Informação (SRI).
o Sistemas de Organização de Conhecimento (KOS).
o Ontologias.
5. Representação do Conhecimento
• Reprodução da percepção do tema abordado
em um documento, independentemente do suporte
e da forma como o conhecimento tenha sido
registrado. (Pinto, 2003 apud Almeida, 2006).
• Para representar o conhecimento é necessário que os
termos e conceitos em concordância com
comunidade ou grupo de sujeitos. (Almeida, 2005;
Alvarenga, 2003) • A principal função da representação é criar uma
estrutura eficiente para a recuperação da
informação.
7. Knowledge organization Systems
(KOS)
• Organização do conhecimento
• “[...] visa à construção de modelos de mundo que se
constituem em abstrações da realidade”
• “[...] é fruto de um processo de análise de domínio e
procura refletir uma visão consensual sobre a
realidade que se pretende representar”. HUSSERL
(1996) • KOS são todos os tipos de esquemas para
organizar a informação e promover a gestão
do conhecimento. Souza, Tudhope e Almeida (2010)
10. Sistemas de Recuperação de
Informação (SRI)
• SRI consistem basicamente em determinar
quais documentos de uma coleção possui
maior relevância dentro de um conjunto
de palavras-chaves que o usuário
deseja. (BAEZA-YATES, 1999).
• Em um SRI o usuário expressa sua
necessidade de informação por meio de
uma expressão de busca, composta
geralmente por um conjunto de termos
que a representa linguisticamente.
11. Sistemas de Recuperação de
Informação (SRI)
• Um SRI é um ambiente linguístico cuja
eficiência depende de um controle adequado
da linguagem de representação dos itens de
informação e das requisições de seus usuários.
• Insere-se assim como um agente mediador na
comunicação entre um estoque de informação
e os seus potenciais requisitantes.
• Em um SRI, o nível e a precisão das
representações dos itens de informação e das
necessidades de informação dos usuários
afetam diretamente no desempenho do
sistema.
13. Ontologia
• Do grego onto (ser) + logia (estudo).
• Filosofia (Aristóteles) à àquilo que existe,
entender o mundo (entidades e relações).
• CC à engenharia de software, modelagem de
SI para representação do conhecimento.
(GRUBER, 1993).
• CI à representação formal de um domínio do
conhecimento. (VICKERY, 1997; SOERGEL, 1997;
ALMEIDA E BAX, 2003).
14. Ontologia
— Guarino (1998) propõe que as ontologias em geral
podem ser classificadas em ontologias genéricas,
ontologias de domínio, ontologias de tarefa e
ontologias de aplicação.
◦ Genéricas: conceitos gerais.
◦ Domínio: domínios genéricos a fim de se evitar
contradições entre dois conceitos.
◦ Tarefa: funcionalidade de um domínio.
◦ Aplicação: conceitos dependentes do domínio e da tarefa.
16. Ontologia
• Exemplos de ontologias:
o Basic Formal Ontology (BFO);
o Descriptive Ontology for Linguisitics and
Cognitive Engineering (DOLCE);
o General Formal Ontology (GFO);
o Unified Foundational Ontology (UFO).
18. Modelo Conceitual
• CI à organização da informação e do
conhecimento. (OLIVEIRA, 2009)
• CC à no desenvolvimento de SI, é o
modelo voltado para entendimento
humano, representa uma tradução da
estrutura do domínio de conhecimento.
(ALMEIDA et. al., 2009; ALMEIDA, 2006).
19. Modelo Conceitual expresso por
Ontologias Formais
• Representam conceitos de um domínio de
maneira não ambígua e consistente.
(OLIVEIRA, 2009). • Autores que defendem a representação de
domínios de conhecimento por meio de
uma ontologia formal: GUARINO (1998,
1998A, 1994, 1997); GRUBER (1993);
20. Modelo Conceitual expresso por
Ontologias Formais
• Integrar dois diferentes vocabulários, V1 e V2, associados a
dois Sis diferentes.
• Estabelecer relações semânticas entre os termos de V1 e
os termos de V2.
• O significado de cada termo de V1 e de V2 expresso em
uma linguagem que seja mais expressiva que os próprios
V1 e V2.
21. Modelos conceituais como KOS
• Ontologias são um tipo KOS que possibilita
representação do conhecimento. (SOERGEL,
1997). • Ontologias podem ter várias funções na
construção do modelo conceitual, seja para
representar o conhecimento da
organização ou para descrição ou
conceituação de um domínio. (GUARINO,
1998; GRUBER, 1993); SOWA, 1999; OLIVEIRA,
2009).
24. A informação é um elemento-chave para os
profissionais de saúde
Experiência pessoal
Literatura científica
Queixas
Exame físico
Resultados anteriores
• O volume de informações médicas publicadas
na Internet está duplicando a cada 6 meses.
• Após o médico se formar, cerca de 50% das
informações obtidas está obsoleta .
• Crescente número de fontes de dados e
conhecimentos biomédicos.
• SI permitem aumento das trocas de ideias entre
campos científicos e a possibilidade de buscas
mais exaustivas.
25. Ontologias Biomédicas: importância
• Organizar dado e conhecimento biomédico, para realizar a
integração das informações e interoperabilidade entre
sistemas médicos.
• Pode ser utilizada para representar informações clinicas de
forma consistentes e confiáveis nos registros eletrônicos
de saúde – Prontuário Eletrônico do Paciente (PEP) por
fornecer um núcleo terminológico consistente para este.
Manter sistemas de referência semântica,
muitas vezes caracterizados como
vocabulários, tesauros, terminologias, e
ontologias
26. Exemplos de Ontologias
Biomédicas
— Algumas contribuições examinas pelos autores:
1. Classificação Internacional de Doenças – CID
2. Medical Subject Headings – MeSH
3. Gene Ontology – GO
4. Systematized Nomenclature of Medicine - Clinical Terms
- SNOMED CT
5. Generalized Architecture for Languages, Encyclopaedias
and Nomenclatures - openGALEN,
6. Foundational Model of Anatomy – FMA
7. Unified Medical Language System – UMLS
8. Open Biomedical Ontologies (OBO) Foundry
9. Blood Ontology – Ontologia do sangue – UFMG
10. NCI- Thesaurus - terminologias sobre câncer
28. Ontologia e Mineração de Dados
• KDD (Descoberta de conhecimento em
banco de dados)
o Pré-processamento, Mineração de Dados e
Pós-processamento. • Mineração de dados
o Análise de dados
o Técnicas/Algoritmos para revelar padrões
ocultos
29. Ontologia e Mineração de Dados
• Ontologias para a Mineração de
Dados incorporar conhecimento ao
processo com a adição de Ontologias.
• Mineração de Dados para as
Ontologias adicionar conhecimento de
domínio a informação de entrada ou até
mesmo usar essas Ontologias para
representar os resultados.
33. Sistemas de Informação
• Laudon e Laudon (2007) explicam que
sistemas de informação contribuem para a
solução de vários problemas empresariais,
independentemente do seu tipo ou do seu
uso.
o Operacional, Conhecimento, Gerencial,
Estratégico
34. Sistemas de Informação
• Segundo Sommerville (2007), a dinâmica recente
do desenvolvimento de software, fez com que
paradigmas fossem quebrados e que surgissem
novas abordagens:
o Desenvolvimento rápido de software: Métodos ágeis,
Extreme Programming,
o Desenvolvimento rápido de aplicações;
o Reuso: Utilização de design patterns, Framework de
aplicações;
o Engenharia de software baseada em componentes;
o Desenvolvimento de sistemas críticos;
o Evolução de software.
35. Sistemas de Informação
Etapas de
Desenvolvimento de
Software
Figura: Etapas de Desenvolvimento de Software - Fonte: www.macoratti.net
36. Ontologias e SI
• Em Ciência da Computação e Ciência da
Informação, ontologias são artefatos
tecnológicos usados em sistemas de
informação.
• Elas consistem de um vocabulário especifico
para descrever uma parte da realidade.
• Ontologias são usadas para validar modelos
e esquemas conceituais.
39. Triplas
• Representações de relações
• Linguagem natural
• Composta por 3 elementos
SUJEITO PREDICADO OBJETO
40. Exemplo de Triplas
• "Homem bebe champagne"
• "Champagne é um tipo de bebida"
• "Champagne agrega valor” (status)
41. Grafos
• Estrutura de dados
• Representação gráfica de triplas
• Relação entre objetos
• Vértices (objetos) e arestas (predicado)
PREDICADO
SUJEITO OBJETO
42. Exemplo de Grafo
amigo_de
Sim, esta é a Lídia!
#Casal
#Lídia
#Mônica
45. Recuperação da Informação
• RI: aplicação de tecnologia computacional à aquisição,
organização, armazenamento, recuperação e
distribuição de informação.
• SARACEVIC(1999): “a RI pode ser considerada a
vertente tecnológica da CI, e é resultado da relação desta
com a Ciência da Computação”.
• Recuperar informação consiste em identificar, em um
acervo documental, quais os documentos que
satisfazem total ou parcialmente a uma determinada
necessidade de informação do usuário.
46. Recuperação da Informação
• Dificuldade:
o Saber quando um documento é relevante ou
não para a necessidade do usuário
• Esse conceito é essencial em RI pois o seu
objetivo primordial consiste em:
o Recuperar todos os documentos relevantes
(revocação)
o Recuperar a menor quantidade possível de
documentos não relevantes (precisão)
47. Recuperação da Informação
• Expressão de busca: usuário expressa sua
necessidade de informação.
o Função de busca: compara as representações
dos documentos com a representação da
expressão de busca.
o Centro do processo de recuperação
§ Ranking dos documentos relevantes
48. Recuperação da Informação
• Ontologias na recuperação da informação:
o Melhorar a precisão e a revocação em sistemas de
RI textual.
o Incorporar conceitos do domínio no processo de
busca.
o Duas direções principais:
§ Expansão de consultas através de termos
relacionados
§ Uso de medidas de distância conceitual
49. Recuperação da Informação
• Grande volumes de dados (especialmente na
Web) • Busca/recuperação baseada em texto (full-text-
search) - limitações:
o Vagueza/indeterminação da linguagem natural
o Conceitos de alto nível (não podem ser
recuperados)
o Relações semânticas (não podem ser
exploradas)
o Dimensão temporal (não pode ser tratada)
50. Documentos
Necessidade do
Usuário
PROCESSO
DE
INDEXAÇÃO
PROCESSO DE
ESPECIFICAÇÂO
DE CONSULTA
Índices
PERDA DE
INFORMAÇÃO
Uma representação
dos documentos
Consultas
PROCESSO DE
RECUPERAÇÃO
Lista de
documentos
recuperados
Fonte: Cardoso(2007)
51. Recuperação da Informação
• Uso de ontologias em RI: (Ferneda, 2013)
o Indexação automática baseada em ontologias
(índice acrescido de termos)
o Expansão de consulta baseada em ontologias
(modificação da consulta)
o SRI semânticos (documentos previamente
anotados)
o Interfaces de busca (definir termos de busca)
52. Considerações Finais
— Falta de consenso sobre a definição do que é
ontologia.
— Dificuldade de consenso sobre os conceitos,
entidades e relações que as ontologias se
propõe a representar de um domínio.
— Falta de consenso sobre a metodologia ideal de
desenvolvimento de ontologias.
— A escolha da ontologia de referência
apropriada.
— Dificuldade de reuso de ontologias.
— Trabalho interdisciplinar que exige diferentes
tipos de profissionais.