Este documento propõe uma metodologia para construção de geo-ontologias que inclui a concepção de um modelo conceitual, seleção e limpeza de fontes de informação e integração de conhecimento geográfico. O autor também desenvolveu um sistema chamado SEI-Geo para extrair e integrar conhecimento geográfico de fontes estruturadas e não estruturadas. As contribuições incluem geo-ontologias públicas e uma análise da "geograficidade" da web portuguesa.
Jogo de Rimas - Para impressão em pdf a ser usado para crianças
Phd Marcirio Chaves
1. UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA UMA METODOLOGIA PARA CONSTRUÇÃO DE GEO-ONTOLOGIAS Marcirio Silveira Chaves Orientadores: Mário J. Silva e Diana Santos Doutoramento em Informática Especialidade Engenharia Informática Lisboa, 16 de outubro de 2009.
4. 3 PROBLEMA CONCRETO INE Nomenclatura de Unidade Territorial (NUT) 1,2,3 CTT Distrito, Concelho, Freguesia Geo- Ontologia Wikipedia e textos Província, região, aldeia ISO 19109 Feature, feature type
17. SISTEMA DE GESTÃO DE CONHECIMENTO GEOGRÁFICO Ambiente de extração e integração de conhecimento geográfico Fontes de informação estruturadas (autoridades) Extração Limpeza Carregamento Portugal GKB Rio Tejo Lisboa Sintra Queluz Graça Belém SEI-Geo - Integrador Rua 25 de Abril Geo-ontologia Informação textual não estruturada Portugal SEI-Geo - Extrator Rio Tejo Lisboa Sintra Belém Arbustos 10
19. GEO-ONTOLOGIAS PRODUZIDAS WGO –WorldGeographicOntology Mais de 13 mil entidades geográficas (EG) (mais de 10 mil distintas) Ca. 25.000 relacionamentos Geo-Net-PT01 Mais de 400 mil EG (34 mil termos distintos) Mais de 75% dos termosformadospor 1 ou 3 palavras 45% dos termos formados por uma palavraestão presentes no nome de outras EG formadas por mais de uma palavra 12
20. GEOGRAFICIDADE DA WEB PORTUGUESA 78,8% dos termosformadospor 1 palavra da Geo-Net-PT estão no WPT 03 nomes de locais em nomes de pessoas e organizações amostra aleatória de 32.000 documentos do WPT 03 31% das entidades mencionadas distintas da categoria pessoa e mais de 23% das entidades mencionadas distintas da categoria organização contêm umnome geográfico incluído na Geo-Net-PT 13
21. SEI-Geo 14 Mundo Mundo País País Cidade Cidade Cidade Rua Rua Aldeia Mundo País Cidade Portugal Aldeia Rua Sintra Penedo São João ... na aldeia de Penedo localizada em Sintra. Arbustos Extrator de arbustos EM e relacionamentos reconhecidos Sentenças Frases c/ potencial conteúdo geográfico Classificador Identificador Padrões frases com EM e relacionamentos reconhecidos Conceitos e Ocorrências de Geo-ontologias Frases anotadas <Local tipo=“adm” subtipo=“aldeia”> Aldeia de Penedo</Local> em <Local tipo=“adm” subtipo=“cidade”> Sintra</Local>. Anotador Integrador de Conhecimento Geográfico Portugal Sintra Sintra Penedo São João Geo- Ontologias Geo-Ontologias expandidas Portugal GKB Geo-Ontologias expandidas Sintra São João
22. METODOLOGIA PROPOSTA NESSA TESE Concepção de um modelo conceitual Sub-domínios, relacionamentos (intra-inter), variantes, diferenças de opinião, atributos das EG, etc. Seleção e limpeza de fontes de informação Autoridade, custo de aquisição, tipo de licenciamentoeformato Integração de conhecimento Exportação de conhecimento e as aplicações 15
23. VALIDAÇÃO INDIRETA DA METODOLOGIA Sistemas de REM (SEI-Geo e CaGE) Módulos do Sistema de Recuperação de Informação Geográfica da UL Interfaces Sistemas que utilizaram as geo-ontologias produzidas participaram em avaliações internacionais (GeoCLEF e HAREM) com resultados significativos. 16
Ontologias raramente usadas fora do ambiente de pesquisa.Raro reuso de conhecimentoLN ambígua
Menos de 15% dos termos formados por 2 palavras.
Menos de 15% dos termos formados por 2 palavras.Exemplo ambiguidade: Castelo Branco
Bacelo é uma freguesia pertencente ao concelho de Évora localizado a 130 km de Lisboa.Padrões do tipo Hearst traduzidospara o português e estendidose.g.: ‘é o distrito’, ‘é um concelho’ e ‘é uma das cidades’ ‘[Nome de local] é um (d[eao]s?)? [Conceito]’ e ‘[Conceito] tal(is) como [Nome de local]’ Métricos: descrevemproximidade (e.g. ‘km’, ‘minutos’ e ‘cerca de’) Direcionais: ‘aolado’, ‘atrás’ e ‘emfrente’ Fuzzy: proximidadeatravés da utilização de termosqualitativos e imprecisos (e.g. ‘próximo’, ‘perto’ e ‘acima’) Orientação: expressosatravés de cardinais (e.g. ‘norte’, ‘sul’, ‘leste’ e ‘oeste’) Adjetivos: capital(ais), litoral(ais), longe, natural(ais) e procedente(s). Advérbios: ‘cá’, ‘aqui’ e ‘lá’. Verbos: chegar, era, falecer, morar, etc... Nomes de Entidades: ocorrências das geo-ontologias (WGO + Geo-Net-PT).Os valores da Geo-Net-PT incluemos top 10 conceitos da geo-ontologia, até o nível de freguesia. PAI,NT1,NT2,NT3,REG,PRO,DST,ILH,CON,FRG