Ontologies pour l'aide à la décision publique et prise en compte des doxas
Construction automatique d'ontologies à partir de spécifications de bases de données
1. Construction automatique
d’ontologie à partir de
spécifications de base de données
M. Kamel, N. Aussenac-Gilles
(IRIT – IC3, Toulouse, France)
aussenac@irit.fr, Kamel@irit.fr
Projet ANR Masse de données GEONTO
Partenaires : LRI-IASI, LIUPPA – Desi et IGN-COGIT
IC 2009 1
2. Construction d'ontologie à partir de spécifications de BD
Problématique :
construction d’ontologies à partir de textes
Textes Analyse du contenu linguistique
Approches linguistiques
Exploitation des relations syntaxiques et de
connaissances sur la langue
Extraction
termes - relations Patrons d’extraction (de termes / de
relations)
Modélisation
Approches statistiques
ontologie Exploitation des régularités de séquences de
termes (co-occurrences, segments répétés
…)
Clustering
Exploiter la structure des textes et la
mise en forme matérielle
IC 2009 2
3. Construction d'ontologie à partir de spécifications de BD
Contexte : GEONTO
Textes
BD-TOPO Spécifications de bases de données
Documents XML ayant le même XML schéma
Sémantique des tags : précise, définit des concepts
et des relations
Spécifications Méthode
Applicable à plusieurs bases de données
Automatique
Extraction
Concepts - relations Ontologies obtenues
Une ontologie par BD
Alignement des ontologies et intervention humaine
Construction vers une ontologie unique de référence
ontologie Validation
Comparaison entre ontologie extraite et une
ontologie existante tirée des mêmes spécifications
OntoTOPO
IC 2009 3
4. Construction d'ontologie à partir de spécifications de BD
Textes : spécifications de BDTopo
Concepts présents
dans les champs:
- Domaine
- Classe
- Regroupement
- Attribut
- Valeur d’attribut
IC 2009 4
5. Construction d'ontologie à partir de spécifications de BD
Textes : spécifications de BDTopo
Rel. hiérarchique
est-un :
- Domaine / Classe
- Classe / Regroup.
- Attribut / Valeur d’attrib.
- Valeur d’attrib. / Regroup.
IC 2009 5
6. Construction d'ontologie à partir de spécifications de BD
Textes : spécifications de BDTopo
Autres relations
sémantiques
Classe / Attribut qualitatif
Propriétés
Classe / Attribut quantitatif
IC 2009 6
7. Construction d'ontologie à partir de spécifications de BD
Textes : spécifications de BDTopo
Information contenue
dans les champs
définition,
modélisation
géométrique, etc.
IC 2009 7
8. Construction d'ontologie à partir de spécifications de BD
Méthode
Prendre en compte la structure hiérarchique du texte / XML schema
Concepts
Relations entre concepts
Noyau d’ontologie
Écriture de règles d’extraction de concepts et de relations
Exploiter le texte rédigé
Nouveaux concepts
Nouvelles relations
Enrichir le noyau d’ontologie
Définition de patrons lexico-syntaxiques
Combiner les deux approches au sein d’un même logiciel
Plate-forme GATE
IC 2009 8
9. Construction d'ontologie à partir de spécifications de BD
Méthode : 1 – exploiter les spécifications XML
IC 2009 9
10. Construction d'ontologie à partir de spécifications de BD
Méthode : 2- exploiter le texte en LN
Identification de relations
Identité
- Chef-lieu de canton : chef-lieu de canton
Synonymie
- Cascade : Chute d’eau
- Terrain de sport : équipement sportif de plein air
Relations lexicales :partie_de, ensemble_de, relations spatiales …
<classe>
<nom_classe> Tronçon de route </nom_classe>
<définition> Portion de voie de communication destin e aux automobilistes >/definition>
destinée
</classe>
(({Token.lemme== quot;portionquot;}|{Token.lemme== quot;partiequot;}|…)
({Token.lemme== quot;dequot;}) ({NounChunk}) :annot
) - - > annot.ANNOT = {kind=quot;Partiequot;, rule=quot;Rule1quot;}
IC 2009 10
11. Construction d'ontologie à partir de spécifications de BD
Mise en œuvre à l’aide de GATE
Spec.
S1 Règle1 : règle de création de concepts et de
relations sémantiques à partir du XML schema
Règle 1 GATE Patrons : patrons lexico-syntaxiques
Spec. Onto. O1
S1
Patrons GATE
Onto. O2
Spec.
S2 GATE
Règles 2
IC 2009 11
12. Construction d'ontologie à partir de spécifications de BD
Résultat : Premier noyau d’ontologie
Concepts
Relation hiérarchique est-un
Relation sémantique a-pour-Franchissement
Propriété a-pour-Département-gestionnaire
IC 2009 12
13. Construction d'ontologie à partir de spécifications de BD
Résultat : ontologie enrichie
Relation sémantique partie-de
Propriété destinée aux automobilistes
IC 2009 13
14. Construction d'ontologie à partir de spécifications de BD
Évaluation : ontologie disponible
Comparaison avec une ontologie COGIT (F.Laurens)
Exploitation de la structure visuelle
des documents de spécification
Concepts introduits par l’expert
Réarrangement des concepts
IC 2009 14
15. Construction d'ontologie à partir de spécifications de BD
Évaluation : Comparaison des ontologies
COGIT IRIT
IC 2009 15
16. Construction d'ontologie à partir de spécifications de BD
Évaluation : Comparaison des ontologies
Onto_COGIT Onto_IRIT
Nombre de concepts 615 1251
Profondeur 6 6
Relation hiérarchique oui oui
quot;est-un quot;
Propriétés non oui
Relation de méronymie non oui
Relations conceptuelles non oui
autres
Mode de construction Supervisé Non supervisé
IC 2009 16
17. Construction d'ontologie à partir de spécifications de BD
Évaluation :
incohérences liées aux spécifications
1) Hiérarchie entre concepts
Classement = « Autre classement »
Définition : Route qui ne fait partie ni du réseau autoroutier,
finition
ni du réseau national, ni du réseau départemental (voir ci-
dessus).
Regroupement : Voies goudronnées (voies communales,
chemins ruraux ou voies privées) | Rues | Rues piétonnes
IC 2009 17
18. Construction d'ontologie à partir de spécifications de BD
Évaluation :
incohérences liées aux spécifications
2) Nature des relations conceptuelles
Voies de Communication (domaine)
est-un
(classe)
IC 2009 18
19. Construction d'ontologie à partir de spécifications de BD
Conclusion
Extraction d’ontologie à partir d’éléments
complémentaires des textes
Structure XML (contexte très favorable)
Contenu rédigé
(mise en forme : énumérations, listes …)
Uniformité de traitement (GATE)
Règles Jape
Patrons
Qualité de l’ontologie
Traces sur l’origine des concepts et relations
Riche en relations autres que hiérarchiques
Exhaustive, reflet fidèle des spécifications
IC 2009 19
20. Construction d'ontologie à partir de spécifications de BD
Perspectives
Enrichir la chaîne de traitement
Utiliser les résultats d’un extracteur de termes
Aider au choix terme / concept
Définir de nouveaux patrons (termes plus spécifiques,
identification de relation)
Développer une interface de validation /
correction humaine
Quand faire intervenir l’expert ?
Au moment de détecter les incohérences et corriger chaque
ontologie individuelle
au fur et à mesure de l’alignement
à la fin de l’alignement
IC 2009 20