Lucene @ Breizhcamp
Lucene, la fameuse technologie pour l’indexation, la recherche et l’analyse du texte a été présente à l'édition 2012 de Breizhcamp à travers deux sessions « Tools In Action » : ElasticSearch et Solr.
Allant au-delà du tutorial, ces deux sessions ont permis de découvrir des patterns d’architecture pour l'intégration d'un moteur de recherche et navigation dans un SI ainsi que de comprendre l’alternative qu’offrent les moteurs de recherche et les approches NoSQL aux bases de données relationnelles. Des subtilités sur l’analyse du texte ont été abordées afin de montrer les forces mais aussi les limites de la magie Lucene. Les démonstrations de chaque technologie et des outils dans leur écosystème ont rendu la présentation plus interactive.
La vidéo de la présentation se trouve sur Parleys (http://www.parleys.com/#st=5&id=3351).
2. Objectif
• Patterns d’architecture
• Outils pour démarrer et exploiter au mieux les
technologies
• Solr
– Léger accent sur l’indexation
• ElasticSearch
– Léger accent sur la recherche
• Démos
8. Intégration Solr
• Clustering : répartiteur de charge et redondance des SA
• Indexation en masse : dizaine de millions de documents
• Fonctions avancées d’analyse du texte
9. Démo Solr – alimenter l’index
• Importer une BD
• Join
• Entités et référencement avec ${parent.ID}
• GROUP_CONCAT
• Indexer des fichiers binaires (Word, Excel, PDF)
10. Types de champs dans l’index
• stored / not_stored
• analyzed / not_analyzed
• Champs de recherche
• Champs de tri
• Champs pour l’affichage
• Champs pour les facettes
• Champs mixtes
18. Démo – Pertinence
• Comment est calculé le score
• Comment influencer le score
19. Démo - recherche
• Analyse à la recherche, requêtes composés
• Highlighting
• Fuzzy
• Facettes
• Filtres
20. Use case métier
• E-commerce
– Beaucoup de critères de pertinence à
implémenter
• Ressources humaines
– Recherche de personnes
– Recherche full-texte (catalogues formation, CVs,
compétences)
• Assurances
– Modèle métier personne-contrat-sinistre
Hinweis der Redaktion
Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
Autres possibilités : - Envoi des documents en HTTP (XML, JSON) - Importer une BD - Charger un fichier CSV - Indexer des fichiers binaires (Word, Excel, PDF) - Envoi des documents en Java (SolrJ) - Crawling des sites web