Connecteur Temis Luxid pour enrichissement sémantique de OpenText Content Server.
Facilite la création d'application Big Data, améliore l'utilisation et l'optimisation de contenus non structurés.
Avec ses vocabulaires métier personnalisés la solution permet de créer des environnements d'analyse et de navigation enrichies.
1. Capitalisez vos contenus
Content Server
Paris le 18 Novembre 2014
Philippe Deltenre – Temis
Pierre Nocera – Red Tree Software
Jean-Marc Touzard – Camoai
2. Agenda
• 15’ : Présentation des acteurs et genèse de la solution
• 30’ : Notions d'enrichissement sémantique
• 30’ : Présentation de la solution Luxid® for OpenText
• 30’ : Témoignage de l’OCDE
• 30’ : Questions ⁄ Réponses
3. • Éditeur spécialisé dans les modules
complémentaires à la suite Content Server :
• Expertise documentaire
• Forte valeur ajoutée
• Centré sur les besoins de l’utilisateur.
• Red Tree Software est distribué en France et
à l’étranger par un réseau de partenaires.
4. • Accélérateur de Transformation Numérique Camoai propose à ses
clients conseil opérationnel et accompagnement :
• Projets Xnet, collaboratif, socialisation
• Projets ECM
• Projets BPM
• Projets de mobilité et entreprise étendue.
• Les solutions Content Server et SharePoint sont au coeur de ces
offres, et Temis un partenaire naturel pour accompagner nos clients
dans leurs projets ECM et Big Data.
17. Luxid for OpenText CS10 (et
Livelink 9.7…)
Pourquoi imaginer une telle solution ?
18. Le contexte
• Les sites ECM OpenText présentent souvent :
• Une utilisation avancée des fonctionnalités documentaires et gestion de contenus (différents
types d’espaces, métadonnées, formulaires, workflows, sécurité, types de contenus)
• Une forte volumétrie
• Un contexte international et donc des exigences en multilinguisme.
• Malgré une fonction de recherche plutôt performante, on constate que les
utilisateurs sont en fait souvent mécontents de la recherche proposée, et
critiquent :
• La pertinence des résultats
• La présentation des résultats.
• Comme il arrive souvent dans les projets ECM, des fonctionnalités intéressantes
sont peu ou pas utilisées :
• Par méconnaissance des utilisateurs et/ou du staff projet en charge de les déployer.
• Par insuffisance dans la gestion du changement.
19. Le contexte
• À cette situation déjà complexe viennent s’ajouter de nouvelles
contraintes :
• On ne demande plus au moteur de recherche de trouver des documents où
l’utilisateur ira puiser de l’information
• On demande au système d’extraire du sens dans un volume d’information croissant
tellement vite que l’utilisateur ne peut plus passer son temps à analyser des documents
sortis d’une liste de résultats
• On attend du système qu’il soit capable de gérer plusieurs cibles en même
temps pour nous aider dans la réflexion et la prise de décision
• Et tout cela en quelques secondes sur des volumes en très forte croissance.
20. La réponse
• La spécialisation sémantique du moteur Luxid de Temis va apporter
des réponses à ces exigences.
• Souvent perçue comme complexe et réservée à des spécialistes,
l’approche sémantique reste encore rare dans les entreprises du
monde industrie-commerce et services.
• Grâce aux connecteurs qui relient le moteur d’enrichissement
sémantique, il sera possible de venir compléter les solutions ECM en
place, en capitalisant les efforts déjà réalisés.
23. Le Connecteur - Les fonctionnalités
• Le connecteur Luxid pour OpenText constitue la passerelle entre
Content Server et Luxid, et permet d’enrichir le contenu sémantique
des documents de manière automatique ou manuelle.
• Les documents classés dans OpenText Content Server voient leur
contenu enrichi par des métadonnées sous forme de catégories /
attributs ou de classifications.
• Le connecteur peut prendre en charge l’extraction du texte des
documents avec ou sans OCR avant leur soumission au serveur Luxid.
24. Le Connecteur - L’architecture
• Le connecteur Luxid pour OpenText est un middleware entre Content
Server et le serveur Luxid et se présente sous la forme d’un service
Windows.
• Le gestionnaire de messages MSMQ est utilisé pour prendre en
charge la gestion des demandes de jobs, ce qui permet d’offrir une
bonne qualité de service : les demandes d’enrichissement ne sont pas
perdues si l’un des 2 serveurs est arrêté.
• Plusieurs connecteurs peuvent être répartis sur plusieurs serveurs,
afin de répartir la charge dans le contexte de traitements importants.
25. Le Connecteur - Flux de données
1 : Les documents sont stockés dans Content Server
2 : Un message est envoyé au gestionnaire MSMQ pour mise en file d’attente de traitement
3 : Le connecteur prend en charge le traitement, extrait éventuellement le texte des documents
4 : Le document est envoyé au serveur Luxid pour enrichissement
5 : Le serveur Luxid renvoie les métadonnées enrichies
6 : Le connecteur met à jour les métadonnées dans Content Server sous forme de catégories / attributs ou de classifications
7 : L’enrichissement sémantique est mis à disposition auprès utilisateurs grâce à l’interface standard de Content Server ( facettes, filtres de recherche, classifications,
etc..)
26. Le Connecteur - Paramétrages
Le paramétrage s’effectue dans le module pour Content Server, dans une page d’administration dédiée.
On paramètre ainsi un ou plusieurs serveurs Luxid, en indiquant notamment l’URL du webservice Luxid.
Ensuite on crée un ou plusieurs processeurs d’analyse, qui permettent de définir le mapping entre les entités Luxid et les catégories / classifications OpenText.
Enfin on crée des Jobs pour l’execution automatique, ou des menus fonctions pour appeler un processeur d’analyse via l’interface utilisateur.
27. Le Connecteur – Interface utilisateur
L’appel à l’enrichissement sémantique peut s’effectuer manuellement via l’interface utilisateur grâce à un menu fonction disponible sur les
documents, et via un bouton « Enrich » pour le traitement des sélections multiples.
28. Le Connecteur – Interface utilisateur
L’appel à l’enrichissement sémantique peut s’effectuer automatiquement. Dans l’exemple ci-dessus chaque fois qu’un document sera ajouté
dans ce dossier ou un sous-dossier, il sera traité et enrichi automatiquement en utilisant le processeur d’analyse « Entities ».
31. Utilisation de Content Server à l’OCDE
• Système de Records Management de notre unité
Bibliothèque et Archives depuis 2009
• Catalogue de publications OCDE et de
ressources externes
• 2 500 000 documents électroniques
• Sur la période 2000-2014:
+ de 150 000 documents officiels
+ de 15 000 publications
+ de 3 000 000 de pages
32. Retrouver l’information dans Content Server avec
Luxid
Amélioration de la recherche standard de Content
Server par:
• Des métadonnées homogènes
• Un identifiant unique pour chaque concept
permettant:
de chercher dans toutes les langues
simultanément
de retrouver un concept malgré l’utilisation
de synonymes et l’évolution du langage
33. Le connecteur développé par Red Tree Software
• Définition de lots de documents à enrichir grâce
à des LiveReport (requêtes sql) avec un certain
plan d’annotation
• Processus automatique et transparent
• Résultats stockés en XML pour une recherche
par URI
• Amélioration de la recherche, résultats plus
pertinents, plus complets
34. Mise en oeuvre – Phase I
Phase I Phase II Phase III
Fin 2013 Fin 2014
35. Mise en oeuvre – Phase II
Phase I Phase II Phase III
Fin 2013 Fin 2014
36. Mise en oeuvre – Phase III
Phase I Phase II Phase III
Fin 2013 Fin 2014
37. Développement
des cartouches
(AWB)
Gestion des
vocabulaires
LUXID
Content Server
Architecture
Enrichissement des vocabulaires Enrichissement de Content Server
38. Questions - Contacts
Par mail :
jm.touzard@camoai.com
philippe.deltenre@temis.com
pnocera@redtreesoftware.com
Par téléphone : +33 686 841 233
Linkedin : fr.linkedin.com/in/jmtouzard/
Viadeo : http://www.viadeo.com/fr/profile/jean-marc.touzard
Quelques chiffres sur l’utilisation de Content Server
Période 2000-2014, premier lot concerné par l’enrichissement
L’indexation standard dans Content Server = plein-texte + métadonnées (catégories/attributs, RM, etc)
La meilleure recherche ne peut que combiner ces 2 types d’information, d’autre part:
Les métadonnées saisies par des humains sont possiblement partiales, inconsistantes
privilégier un terme plutôt qu’un autre
peut varier selon la personne, l’humeur, etc.
Les termes évoluent, pas les métadonnées stockées
Une métadonnée si elle n’est qu’une chaine de caractère n’évolue plus (nécessité de stocker un concept avec un identifiant unique)
Le terme recherché n’est pas forcément présent dans le document (synonymes, langues différentes)
Processus parallèles et nécessitant des allers-retours
Mise à jour des vocabulaires et développement des 2 principales cartouches
Classification (Extraction de Sujets et d’Aires Géographiques (issus de notre taxonomie centrale)
Document Type (Catégorisation par type de documents)
Corpus de 165 000 documents et publications (3 000 000 de pages) identifiés pour le passage en production
Temps de traitement évalué: moins de 9 jours (24/24)
Enrichissement en production des 165 000 documents et publications
Mise en place des processus d’enrichissement automatique pour les nouveaux documents
Extension du périmètre des contenus à enrichir dans Content Server
Mise à disposition des webservices Temis pour d’autres systèmes
Exploitation des liens sémantiques
Architecture très schématisée
L’enrichissement des vocabulaires n’est pas automatique: processus de veille, les cartouches nous aident à identifier les termes candidats