SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Search, NoSQL et Big Data
avec les moteurs de recherche
@LucianPrecup
2013-11-14
Historique - avant
Browse
Filter
Sort

Get

Appli
<
Répertoire
idx

BD

file

file

www
file

>
<

>
<

>
Historique - après
Search
Filter
Sort
Index
Get

Appli
<
Répertoire
idx

BD

file

file

www
file

>
<

>
<

>
Les moteurs de recherche sont partout

-- LucidWorks (http://www.lucidworks.com/)
Use case métier
• E-commerce

– Beaucoup de critères de pertinence métier à implémenter

• Ressources humaines

– Recherche de personnes
– Recherche full-texte (catalogues formation, CVs, compétences)

• Poste de travail

– Modèle métier complexe
– Indexation temps réel

• Portail intranet

– Hétérogénéité des sources données: annuaires, wikis, fichiers,
applications

• Internet

– Pertinence du premier résultat. Ex. : « I’m feeling lucky » de Google,
Siri, LeMoteur.fr
Recherche rapide
Recherche rapide
«« full-text »
full-text »
Auto-complétion
Auto-complétion
(suggestions de résultats)
(suggestions de résultats)
Surbrillance gérée par le
Surbrillance gérée par le
moteur
moteur

Accès aux recherches
Accès aux recherches
multicritères
multicritères
Recherche approximative et
Recherche approximative et
suggestions d’orthographe
suggestions d’orthographe

Nombre total
Nombre total
des résultats
des résultats

Résultats affichés
Résultats affichés
sous la forme de
sous la forme de
«« mini-fiches »
mini-fiches »

Navigation par facettes
Navigation par facettes
- - Calculées avec les résultats
Calculées avec les résultats
de recherche
de recherche
- - Filtres de recherche à
Filtres de recherche à
renseigner apostériori
renseigner apostériori

Pagination gérée par le moteur
Pagination gérée par le moteur

Tri sur l’ensemble des
Tri sur l’ensemble des
résultats (pas
résultats (pas
seulement page en
seulement page en
cours)
cours)
Use case : applications de gestion
•

Expérience utilisateur / Ergonomie de
l’application
–
–
–
–
–

•

•

Navigation « à la Google »
Accès quasi-direct à la donnée recherchée
Navigation par facettes
Pagination disponible « out of the box »
Performances maximisées impliquant une
fluidité accrue des applications
– Suggestions (auto-complétion) des termes à
rechercher

Fonctionnalités de recherche sémantique très
puissantes

– Recherche approximative, recherche
phonétique, correction grammaticale et
d’orthographe, gestion des mots techniques, des
synonymes et des mots composés

Plus rapide que les approches SQL traditionnels
Use case : recherche sémantique

••Identificationde la langue
Identification de la langue
••Segmentation––dans les langues sans
Segmentation dans les langues sans
espaces (chinois, japonais, coréen)
espaces (chinois, japonais, coréen)
••Décomposerles mots ––dans les langues qui
Décomposer les mots dans les langues qui
composent naturellement les mots (allemand,
composent naturellement les mots (allemand,
néerlandais, coréen
néerlandais, coréen
••Extractiond’entités : :noms, endroits,
Extraction d’entités noms, endroits,
entreprises, ... (ex. j’ai acheté du pain ààla
entreprises, ... (ex. j’ai acheté du pain la
boulangerie du Monsieur Du Pain)
boulangerie du Monsieur Du Pain)

-- Basis Technology (http://www.basistech.com/text-analytics/rosette/)
Use case : agrégations

– Groupement par un critère (ex. valeur du champ type
de garantie, ou thème, ou catégorie) et calcul des
statistiques sur un autre champ (ex. total du CA)
9
NoSQL ?
• En général
–
–
–
–

BDs non-traditionnelle
N’utilisent pas / ne sont pas construites autour de SQL
Distribués, architecture résistante aux pannes
Modèle allégé pour permettre la scalabilité horizontale

• Pour un moteur de recherche :
–
–
–
–
–
–

Indexation et recherche distribuées
Real-time Get, Versioning et Optimistic Locking
Durable updates (transaction log)
HA sans SPOF
Near Real-time Search
Options “schema-less”
NoSQL, Moteurs de Recherche et
SGBDs classiques
Synchronisation
Synchronisation
temps réel
temps réel

Fluidité des applications
Fluidité des applications
grâce ààla meilleure
grâce la meilleure
performance
performance

Accès quasi-direct ààla
Accès quasi-direct la
donnée recherchée
donnée recherchée

Facettes simples
Facettes simples
ou complexes
ou complexes

Alternative aux outils
Alternative aux outils
BI traditionnels
BI traditionnels

Suggestions temps
Suggestions temps
réel des termes àà
réel des termes
chercher
chercher
••Backend Elasticsearch
Back end Elasticsearch
••Frontend Javascript
Front end Javascript
••Applicationdéveloppée
Application développée
en 8h
en 8h
••#nosql
#nosql

-- http://javaetmoi.com/2013/11/musicbrainz-elasticsearch-angularjs-openshift/
Big Data?
• Ensemble des données
tellement larges qu’il est
difficile de les exploiter
avec des bases de données
ou des outils traditionnels
• Les problématiques
incluent : l’acquisition, le
nettoyage, le stockage, la
recherche, le partage, le
transfert, l’analyse et la
visualisation
Big Data?

• Big Data et le marketing :-)
You don’t have a "Big Data"
problem, you have a big
"data problem" -- Twitter

• Ensemble des données
tellement larges qu’il est
difficile de les exploiter
avec des bases de données
ou des outils traditionnels
• Les problématiques
incluent : l’acquisition, le
nettoyage, le stockage, la
recherche, le partage, le
transfert, l’analyse et la
visualisation
Big Data en France
• « Tous les secteurs économiques, du commerce au
secteur automobile en passant par le secteur
énergétique, tous les domaines de la vie quotidienne
(santé, éducation...) sont concernés.»
• « Les enjeux sont considérables, d’abord sur un plan
économique : on évalue à 8% du PIB européen la
création de valeur liée aux Big Data à l’horizon 2020.»
• « L’objectif du plan "Big Data" est de faire de la
France la référence mondiale dans ce domaine. »
-- http://www.redressement-productif.gouv.fr/files/la-nouvelle-france-industrielle.pdf
Big Data en France
• « Tous les secteurs économiques, du commerce au
secteur automobile en passant par le secteur
énergétique, tous les domaines de la vie quotidienne
(santé, éducation...) sont concernés.»
• « Les enjeux sont considérables, d’abord sur un plan
économique : on évalue à 8% du PIB européen la
création de valeur liée aux Big Data à l’horizon 2020.»
• « L’objectif du plan "Big Data" est de faire de la France
la référence mondiale dans ce domaine. »
-- http://www.redressement-productif.gouv.fr/files/la-nouvelle-france-industrielle.pdf
Use case : analyse des données

-- http://www.elasticsearch.org/overview/kibana/
Use case : sémantique et visualisation

-- http://search.carrot2.org/stable/search
Elasticsearch @Github ::
Elasticsearch @Github
••20TB de données
20 TB de données
••1.3milliards de fichiers
1.3 milliards de fichiers
••130milliards de lignes
130 milliards de lignes
de code
de code
Search @Linkedin ::
Search @Linkedin
••238millions d’utilisateurs
238 millions d’utilisateurs
••5,7milliards de recherches de
5,7 milliards de recherches de
professionnels en 2012
professionnels en 2012
Big Data @Amazon ::
Big Data @Amazon
••Picsde 200 articles
Pics de 200 articles
vendus par seconde
vendus par seconde
Merci

Q&A

Weitere ähnliche Inhalte

Andere mochten auch

L'immensité de la Chine
L'immensité de la ChineL'immensité de la Chine
L'immensité de la ChineFrescatiStory
 
Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...
Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...
Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...OUADA Yazid
 
Bilan réseau information jeunesse en 2013
Bilan réseau information jeunesse en 2013Bilan réseau information jeunesse en 2013
Bilan réseau information jeunesse en 2013InfoJeunesse ValdOise
 
La veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pub
La veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pubLa veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pub
La veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pubRed Guy
 
L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...
L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...
L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...Cap'Com
 
Proyecto de una izquierda popular global
Proyecto de una izquierda popular globalProyecto de una izquierda popular global
Proyecto de una izquierda popular globalAnneo Cruz
 
La mine de Mopanie en Zambie - Florian Gomart
La mine de Mopanie en Zambie - Florian GomartLa mine de Mopanie en Zambie - Florian Gomart
La mine de Mopanie en Zambie - Florian GomartPublish What You Pay
 
Partitura de acércate
Partitura de acércatePartitura de acércate
Partitura de acércatejanraga
 
Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...
Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...
Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...Cap'Com
 
Paris 1900 grandes espaces
Paris 1900 grandes espacesParis 1900 grandes espaces
Paris 1900 grandes espacesRobin Hood
 
Cable reference id #06 caracas3356
Cable reference id  #06 caracas3356Cable reference id  #06 caracas3356
Cable reference id #06 caracas3356Tom Pereira
 
Early bird foundation insights.ic.devon diane steve fr
Early bird foundation insights.ic.devon diane steve  frEarly bird foundation insights.ic.devon diane steve  fr
Early bird foundation insights.ic.devon diane steve frVolunteer Canada
 
Rubrique du Web du 4 janvier 2010 - Club Photoshop
Rubrique du Web du 4 janvier 2010 - Club PhotoshopRubrique du Web du 4 janvier 2010 - Club Photoshop
Rubrique du Web du 4 janvier 2010 - Club Photoshopguest69b4b39
 
Libertic_Claire Gallion_Open Data
Libertic_Claire Gallion_Open DataLibertic_Claire Gallion_Open Data
Libertic_Claire Gallion_Open DataMetro'num 2011
 

Andere mochten auch (20)

L'immensité de la Chine
L'immensité de la ChineL'immensité de la Chine
L'immensité de la Chine
 
Artimag 17 Septembre 2011
Artimag 17 Septembre 2011Artimag 17 Septembre 2011
Artimag 17 Septembre 2011
 
Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...
Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...
Communication : La norme, Levier de régulation pour le commerce extérieur, Mr...
 
Bilan réseau information jeunesse en 2013
Bilan réseau information jeunesse en 2013Bilan réseau information jeunesse en 2013
Bilan réseau information jeunesse en 2013
 
La veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pub
La veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pubLa veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pub
La veille de Red Guy du 16.04.14 - Quand les médias jouent les agences de pub
 
L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...
L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...
L'organisation à l'épreuve des nouveaux territoires numériques des salariés :...
 
Proyecto de una izquierda popular global
Proyecto de una izquierda popular globalProyecto de una izquierda popular global
Proyecto de una izquierda popular global
 
La mine de Mopanie en Zambie - Florian Gomart
La mine de Mopanie en Zambie - Florian GomartLa mine de Mopanie en Zambie - Florian Gomart
La mine de Mopanie en Zambie - Florian Gomart
 
Partitura de acércate
Partitura de acércatePartitura de acércate
Partitura de acércate
 
Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...
Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...
Atelier - Comment bien gérer les relations publiques dans le cadre d'un événe...
 
Artimag Numéro 16
Artimag Numéro 16Artimag Numéro 16
Artimag Numéro 16
 
Paris 1900 grandes espaces
Paris 1900 grandes espacesParis 1900 grandes espaces
Paris 1900 grandes espaces
 
Insuficiencia Cardiaca
Insuficiencia CardiacaInsuficiencia Cardiaca
Insuficiencia Cardiaca
 
Cable reference id #06 caracas3356
Cable reference id  #06 caracas3356Cable reference id  #06 caracas3356
Cable reference id #06 caracas3356
 
Micolo gi a
Micolo gi aMicolo gi a
Micolo gi a
 
02 fantasie pm 1
02 fantasie pm 102 fantasie pm 1
02 fantasie pm 1
 
Early bird foundation insights.ic.devon diane steve fr
Early bird foundation insights.ic.devon diane steve  frEarly bird foundation insights.ic.devon diane steve  fr
Early bird foundation insights.ic.devon diane steve fr
 
Togo
Togo Togo
Togo
 
Rubrique du Web du 4 janvier 2010 - Club Photoshop
Rubrique du Web du 4 janvier 2010 - Club PhotoshopRubrique du Web du 4 janvier 2010 - Club Photoshop
Rubrique du Web du 4 janvier 2010 - Club Photoshop
 
Libertic_Claire Gallion_Open Data
Libertic_Claire Gallion_Open DataLibertic_Claire Gallion_Open Data
Libertic_Claire Gallion_Open Data
 

Ähnlich wie Search, nosql et bigdata avec les moteurs de recherche

L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskJedha Bootcamp
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
20141216 La veille en TPE / PME by competitic
20141216 La veille en TPE / PME by competitic20141216 La veille en TPE / PME by competitic
20141216 La veille en TPE / PME by competiticCOMPETITIC
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Microsoft Technet France
 
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...Microsoft
 
Le reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usageLe reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usageMichael Nokhamzon
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Nuxeo
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
 
Les critères de choix d'un intranet
Les critères de choix d'un intranetLes critères de choix d'un intranet
Les critères de choix d'un intranetParis, France
 
Temis Luxid recommande GROUPE ONEPOINT
Temis Luxid recommande GROUPE ONEPOINTTemis Luxid recommande GROUPE ONEPOINT
Temis Luxid recommande GROUPE ONEPOINTGroupeONEPOINT
 

Ähnlich wie Search, nosql et bigdata avec les moteurs de recherche (20)

L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
20141216 La veille en TPE / PME by competitic
20141216 La veille en TPE / PME by competitic20141216 La veille en TPE / PME by competitic
20141216 La veille en TPE / PME by competitic
 
Offre Search
Offre SearchOffre Search
Offre Search
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage
 
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
 
Le reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usageLe reporting bi dans tous ses états quel outil pour quel usage
Le reporting bi dans tous ses états quel outil pour quel usage
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
Les critères de choix d'un intranet
Les critères de choix d'un intranetLes critères de choix d'un intranet
Les critères de choix d'un intranet
 
Matinales performance 2010
Matinales performance 2010Matinales performance 2010
Matinales performance 2010
 
Présentation 6 IT 2016
Présentation 6 IT 2016Présentation 6 IT 2016
Présentation 6 IT 2016
 
Intro IA CJD
Intro IA CJDIntro IA CJD
Intro IA CJD
 
Temis Luxid recommande GROUPE ONEPOINT
Temis Luxid recommande GROUPE ONEPOINTTemis Luxid recommande GROUPE ONEPOINT
Temis Luxid recommande GROUPE ONEPOINT
 

Mehr von Lucian Precup

Enrich data and rewrite queries with the Elasticsearch percolator
Enrich data and rewrite queries with the Elasticsearch percolatorEnrich data and rewrite queries with the Elasticsearch percolator
Enrich data and rewrite queries with the Elasticsearch percolatorLucian Precup
 
Joins in a distributed world Distributed Matters Barcelona 2015
Joins in a distributed world Distributed Matters Barcelona 2015Joins in a distributed world Distributed Matters Barcelona 2015
Joins in a distributed world Distributed Matters Barcelona 2015Lucian Precup
 
Search and nosql for information management @nosqlmatters Cologne
Search and nosql for information management @nosqlmatters CologneSearch and nosql for information management @nosqlmatters Cologne
Search and nosql for information management @nosqlmatters CologneLucian Precup
 
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014Lucian Precup
 
ALM et Agilite : la convergence
ALM et Agilite : la convergenceALM et Agilite : la convergence
ALM et Agilite : la convergenceLucian Precup
 
La revue de code : facile !
La revue de code : facile !La revue de code : facile !
La revue de code : facile !Lucian Precup
 
La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !Lucian Precup
 
Moteurs de recherche et Lucene at LorraineJUG
Moteurs de recherche et Lucene at LorraineJUGMoteurs de recherche et Lucene at LorraineJUG
Moteurs de recherche et Lucene at LorraineJUGLucian Precup
 
Solr and Elasticsearch in Action (at Breizhcamp)
Solr and Elasticsearch in Action (at Breizhcamp)Solr and Elasticsearch in Action (at Breizhcamp)
Solr and Elasticsearch in Action (at Breizhcamp)Lucian Precup
 

Mehr von Lucian Precup (9)

Enrich data and rewrite queries with the Elasticsearch percolator
Enrich data and rewrite queries with the Elasticsearch percolatorEnrich data and rewrite queries with the Elasticsearch percolator
Enrich data and rewrite queries with the Elasticsearch percolator
 
Joins in a distributed world Distributed Matters Barcelona 2015
Joins in a distributed world Distributed Matters Barcelona 2015Joins in a distributed world Distributed Matters Barcelona 2015
Joins in a distributed world Distributed Matters Barcelona 2015
 
Search and nosql for information management @nosqlmatters Cologne
Search and nosql for information management @nosqlmatters CologneSearch and nosql for information management @nosqlmatters Cologne
Search and nosql for information management @nosqlmatters Cologne
 
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
 
ALM et Agilite : la convergence
ALM et Agilite : la convergenceALM et Agilite : la convergence
ALM et Agilite : la convergence
 
La revue de code : facile !
La revue de code : facile !La revue de code : facile !
La revue de code : facile !
 
La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !
 
Moteurs de recherche et Lucene at LorraineJUG
Moteurs de recherche et Lucene at LorraineJUGMoteurs de recherche et Lucene at LorraineJUG
Moteurs de recherche et Lucene at LorraineJUG
 
Solr and Elasticsearch in Action (at Breizhcamp)
Solr and Elasticsearch in Action (at Breizhcamp)Solr and Elasticsearch in Action (at Breizhcamp)
Solr and Elasticsearch in Action (at Breizhcamp)
 

Search, nosql et bigdata avec les moteurs de recherche

  • 1. Search, NoSQL et Big Data avec les moteurs de recherche @LucianPrecup 2013-11-14
  • 4. Les moteurs de recherche sont partout -- LucidWorks (http://www.lucidworks.com/)
  • 5. Use case métier • E-commerce – Beaucoup de critères de pertinence métier à implémenter • Ressources humaines – Recherche de personnes – Recherche full-texte (catalogues formation, CVs, compétences) • Poste de travail – Modèle métier complexe – Indexation temps réel • Portail intranet – Hétérogénéité des sources données: annuaires, wikis, fichiers, applications • Internet – Pertinence du premier résultat. Ex. : « I’m feeling lucky » de Google, Siri, LeMoteur.fr
  • 6. Recherche rapide Recherche rapide «« full-text » full-text » Auto-complétion Auto-complétion (suggestions de résultats) (suggestions de résultats) Surbrillance gérée par le Surbrillance gérée par le moteur moteur Accès aux recherches Accès aux recherches multicritères multicritères Recherche approximative et Recherche approximative et suggestions d’orthographe suggestions d’orthographe Nombre total Nombre total des résultats des résultats Résultats affichés Résultats affichés sous la forme de sous la forme de «« mini-fiches » mini-fiches » Navigation par facettes Navigation par facettes - - Calculées avec les résultats Calculées avec les résultats de recherche de recherche - - Filtres de recherche à Filtres de recherche à renseigner apostériori renseigner apostériori Pagination gérée par le moteur Pagination gérée par le moteur Tri sur l’ensemble des Tri sur l’ensemble des résultats (pas résultats (pas seulement page en seulement page en cours) cours)
  • 7. Use case : applications de gestion • Expérience utilisateur / Ergonomie de l’application – – – – – • • Navigation « à la Google » Accès quasi-direct à la donnée recherchée Navigation par facettes Pagination disponible « out of the box » Performances maximisées impliquant une fluidité accrue des applications – Suggestions (auto-complétion) des termes à rechercher Fonctionnalités de recherche sémantique très puissantes – Recherche approximative, recherche phonétique, correction grammaticale et d’orthographe, gestion des mots techniques, des synonymes et des mots composés Plus rapide que les approches SQL traditionnels
  • 8. Use case : recherche sémantique ••Identificationde la langue Identification de la langue ••Segmentation––dans les langues sans Segmentation dans les langues sans espaces (chinois, japonais, coréen) espaces (chinois, japonais, coréen) ••Décomposerles mots ––dans les langues qui Décomposer les mots dans les langues qui composent naturellement les mots (allemand, composent naturellement les mots (allemand, néerlandais, coréen néerlandais, coréen ••Extractiond’entités : :noms, endroits, Extraction d’entités noms, endroits, entreprises, ... (ex. j’ai acheté du pain ààla entreprises, ... (ex. j’ai acheté du pain la boulangerie du Monsieur Du Pain) boulangerie du Monsieur Du Pain) -- Basis Technology (http://www.basistech.com/text-analytics/rosette/)
  • 9. Use case : agrégations – Groupement par un critère (ex. valeur du champ type de garantie, ou thème, ou catégorie) et calcul des statistiques sur un autre champ (ex. total du CA) 9
  • 10. NoSQL ? • En général – – – – BDs non-traditionnelle N’utilisent pas / ne sont pas construites autour de SQL Distribués, architecture résistante aux pannes Modèle allégé pour permettre la scalabilité horizontale • Pour un moteur de recherche : – – – – – – Indexation et recherche distribuées Real-time Get, Versioning et Optimistic Locking Durable updates (transaction log) HA sans SPOF Near Real-time Search Options “schema-less”
  • 11. NoSQL, Moteurs de Recherche et SGBDs classiques Synchronisation Synchronisation temps réel temps réel Fluidité des applications Fluidité des applications grâce ààla meilleure grâce la meilleure performance performance Accès quasi-direct ààla Accès quasi-direct la donnée recherchée donnée recherchée Facettes simples Facettes simples ou complexes ou complexes Alternative aux outils Alternative aux outils BI traditionnels BI traditionnels Suggestions temps Suggestions temps réel des termes àà réel des termes chercher chercher
  • 12. ••Backend Elasticsearch Back end Elasticsearch ••Frontend Javascript Front end Javascript ••Applicationdéveloppée Application développée en 8h en 8h ••#nosql #nosql -- http://javaetmoi.com/2013/11/musicbrainz-elasticsearch-angularjs-openshift/
  • 13. Big Data? • Ensemble des données tellement larges qu’il est difficile de les exploiter avec des bases de données ou des outils traditionnels • Les problématiques incluent : l’acquisition, le nettoyage, le stockage, la recherche, le partage, le transfert, l’analyse et la visualisation
  • 14. Big Data? • Big Data et le marketing :-) You don’t have a "Big Data" problem, you have a big "data problem" -- Twitter • Ensemble des données tellement larges qu’il est difficile de les exploiter avec des bases de données ou des outils traditionnels • Les problématiques incluent : l’acquisition, le nettoyage, le stockage, la recherche, le partage, le transfert, l’analyse et la visualisation
  • 15. Big Data en France • « Tous les secteurs économiques, du commerce au secteur automobile en passant par le secteur énergétique, tous les domaines de la vie quotidienne (santé, éducation...) sont concernés.» • « Les enjeux sont considérables, d’abord sur un plan économique : on évalue à 8% du PIB européen la création de valeur liée aux Big Data à l’horizon 2020.» • « L’objectif du plan "Big Data" est de faire de la France la référence mondiale dans ce domaine. » -- http://www.redressement-productif.gouv.fr/files/la-nouvelle-france-industrielle.pdf
  • 16. Big Data en France • « Tous les secteurs économiques, du commerce au secteur automobile en passant par le secteur énergétique, tous les domaines de la vie quotidienne (santé, éducation...) sont concernés.» • « Les enjeux sont considérables, d’abord sur un plan économique : on évalue à 8% du PIB européen la création de valeur liée aux Big Data à l’horizon 2020.» • « L’objectif du plan "Big Data" est de faire de la France la référence mondiale dans ce domaine. » -- http://www.redressement-productif.gouv.fr/files/la-nouvelle-france-industrielle.pdf
  • 17. Use case : analyse des données -- http://www.elasticsearch.org/overview/kibana/
  • 18. Use case : sémantique et visualisation -- http://search.carrot2.org/stable/search
  • 19. Elasticsearch @Github :: Elasticsearch @Github ••20TB de données 20 TB de données ••1.3milliards de fichiers 1.3 milliards de fichiers ••130milliards de lignes 130 milliards de lignes de code de code
  • 20. Search @Linkedin :: Search @Linkedin ••238millions d’utilisateurs 238 millions d’utilisateurs ••5,7milliards de recherches de 5,7 milliards de recherches de professionnels en 2012 professionnels en 2012
  • 21. Big Data @Amazon :: Big Data @Amazon ••Picsde 200 articles Pics de 200 articles vendus par seconde vendus par seconde

Hinweis der Redaktion

  1. Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  2. Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  3. Recherche rapide « full text » Input: une zone de texte « à la Google » (un texte représentant un nom, un prénom, un identifiant quelconque, un numéro de téléphone, une adresse e-mail, etc.) Output: Résultats, surbrillance et facettes. La liste de résultats n’est pas forcement homogène, chaque résultat pouvant être affiché sous forme de « mini-fiche » L’utilisation des facettes lors de l’affichage du résultat rendra la recherche multicritères optionnelle. Recherche multicritères (recherche avancée) Input: termes de recherche par champ (nom, prénom, id, ville, code postal) Output: liste (homogène) avec résultats de la recherche Auto-complétion (suggestion des résultats) Input: toute ou partie d’un terme recherché localisé à un champ de texte à remplir Output: liste déroulante avec suggestions du terme recherché et surbrillance Facettes Groupement des résultats par catégorie en fonction de la valeur d’un champs (ex. Type Client, Profil client, Sexe) Calculées et remontées en même temps que le résultat de recherche Recherche approximative Sources des erreurs de saisie: fautes de frappe, éléments mal compris par téléphone (phonétique), noms saisis partiellement, noms composés, caractères accentués Suggestions « voulez-vous dire … » Termes se rapprochant des termes initialement cherchés et pouvant remonter potentiellement plus de résultats. Pagination Le moteur gère la pagination Chaque requête précise, en plus des critères de recherche, un indice de départ et une taille de la page La première page est, en général, remontée le plus rapidement La réponse contient le nombre total de résultats, permettant à l’IHM de proposer les liens vers toutes les pages suivantes Tri Le tri par défaut est le tri par pertinence moteur D’autres tris peuvent être demandés (alphabétique par nom, par date de naissance, etc.). Dans ce cas, le tri se fait sur l’ensemble de résultats et pas seulement sur la page en cours.
  4. Real-time Get + Versioning et Optimistic Locking =&gt; read-update-write functionality that ensures noconflicting changes were made concurrently by other clients What is NoSQL? - Wikipedia: A NoSQL database provides a mechanism for storage and retrieval of data that use looser consistency models than traditional relational databases in order to achieve horizontal scaling and higher availability. Some authors refer to them as &quot;Not only SQL&quot; to emphasize that some NoSQL systems do allow SQL-like query language to be used. - non-traditional datastores Doesn’t use / isn’t designed around SQL May not give full ACID guarantees (offers other advantages such as greater scalability as a tradeoff) Distributed, fault-tolerance architecture