Search, nosql et bigdata avec les moteurs de recherche

Search, NoSQL et Big Data
avec les moteurs de recherche
@LucianPrecup
2013-11-14

Historique - avant
Browse
Filter
Sort

Get

Appli
<
Répertoire
idx

BD

file

file

www
file

>
<

>
<

>

Historique - après
Search
Filter
Sort
Index
Get

Appli
<
Répertoire
idx

BD

file

file

www
file

>
<

>
<

>

Les moteurs de recherche sont partout

-- LucidWorks (http://www.lucidworks.com/)

Use case métier
• E-commerce

– Beaucoup de critères de pertinence métier à implémenter

• Ressources humaines

– Recherche de personnes
– Recherche full-texte (catalogues formation, CVs, compétences)

• Poste de travail

– Modèle métier complexe
– Indexation temps réel

• Portail intranet

– Hétérogénéité des sources données: annuaires, wikis, fichiers,
applications

• Internet

– Pertinence du premier résultat. Ex. : « I’m feeling lucky » de Google,
Siri, LeMoteur.fr

Recherche rapide
Recherche rapide
«« full-text »
full-text »
Auto-complétion
Auto-complétion
(suggestions de résultats)
(suggestions de résultats)
Surbrillance gérée par le
Surbrillance gérée par le
moteur
moteur

Accès aux recherches
Accès aux recherches
multicritères
multicritères
Recherche approximative et
Recherche approximative et
suggestions d’orthographe
suggestions d’orthographe

Nombre total
Nombre total
des résultats
des résultats

Résultats affichés
Résultats affichés
sous la forme de
sous la forme de
«« mini-fiches »
mini-fiches »

Navigation par facettes
- - Calculées avec les résultats
Calculées avec les résultats
de recherche
de recherche
- - Filtres de recherche à
Filtres de recherche à
renseigner apostériori
renseigner apostériori

Pagination gérée par le moteur
Pagination gérée par le moteur

Tri sur l’ensemble des
Tri sur l’ensemble des
résultats (pas
résultats (pas
seulement page en
seulement page en
cours)
cours)

Use case : applications de gestion
•

Expérience utilisateur / Ergonomie de
l’application
–
–
–
–
–

•

•

Navigation « à la Google »
Accès quasi-direct à la donnée recherchée
Pagination disponible « out of the box »
Performances maximisées impliquant une
fluidité accrue des applications
– Suggestions (auto-complétion) des termes à
rechercher

Fonctionnalités de recherche sémantique très
puissantes

– Recherche approximative, recherche
phonétique, correction grammaticale et
d’orthographe, gestion des mots techniques, des
synonymes et des mots composés

Plus rapide que les approches SQL traditionnels

Use case : recherche sémantique

••Identificationde la langue
Identification de la langue
••Segmentation––dans les langues sans
Segmentation dans les langues sans
espaces (chinois, japonais, coréen)
espaces (chinois, japonais, coréen)
••Décomposerles mots ––dans les langues qui
Décomposer les mots dans les langues qui
composent naturellement les mots (allemand,
composent naturellement les mots (allemand,
néerlandais, coréen
néerlandais, coréen
••Extractiond’entités : :noms, endroits,
Extraction d’entités noms, endroits,
entreprises, ... (ex. j’ai acheté du pain ààla
entreprises, ... (ex. j’ai acheté du pain la
boulangerie du Monsieur Du Pain)
boulangerie du Monsieur Du Pain)

-- Basis Technology (http://www.basistech.com/text-analytics/rosette/)

Use case : agrégations

– Groupement par un critère (ex. valeur du champ type
de garantie, ou thème, ou catégorie) et calcul des
statistiques sur un autre champ (ex. total du CA)
9

NoSQL ?
• En général
–
–
–
–

BDs non-traditionnelle
N’utilisent pas / ne sont pas construites autour de SQL
Distribués, architecture résistante aux pannes
Modèle allégé pour permettre la scalabilité horizontale

• Pour un moteur de recherche :
–
–
–
–
–
–

Indexation et recherche distribuées
Real-time Get, Versioning et Optimistic Locking
Durable updates (transaction log)
HA sans SPOF
Near Real-time Search
Options “schema-less”

NoSQL, Moteurs de Recherche et
SGBDs classiques
Synchronisation
Synchronisation
temps réel
temps réel

Fluidité des applications
Fluidité des applications
grâce ààla meilleure
grâce la meilleure
performance
performance

Accès quasi-direct ààla
Accès quasi-direct la
donnée recherchée
donnée recherchée

Facettes simples
Facettes simples
ou complexes
ou complexes

Alternative aux outils
Alternative aux outils
BI traditionnels
BI traditionnels

Suggestions temps
Suggestions temps
réel des termes àà
réel des termes
chercher
chercher

••Backend Elasticsearch
Back end Elasticsearch
••Frontend Javascript
Front end Javascript
••Applicationdéveloppée
Application développée
en 8h
en 8h
••#nosql
#nosql

-- http://javaetmoi.com/2013/11/musicbrainz-elasticsearch-angularjs-openshift/

Big Data?
• Ensemble des données
tellement larges qu’il est
difficile de les exploiter
avec des bases de données
ou des outils traditionnels
• Les problématiques
incluent : l’acquisition, le
nettoyage, le stockage, la
recherche, le partage, le
transfert, l’analyse et la
visualisation

Big Data?

• Big Data et le marketing :-)
You don’t have a "Big Data"
problem, you have a big
"data problem" -- Twitter

• Ensemble des données
tellement larges qu’il est
difficile de les exploiter
avec des bases de données
ou des outils traditionnels
• Les problématiques
incluent : l’acquisition, le
nettoyage, le stockage, la
recherche, le partage, le
transfert, l’analyse et la
visualisation

Big Data en France
• « Tous les secteurs économiques, du commerce au
secteur automobile en passant par le secteur
énergétique, tous les domaines de la vie quotidienne
(santé, éducation...) sont concernés.»
• « Les enjeux sont considérables, d’abord sur un plan
économique : on évalue à 8% du PIB européen la
création de valeur liée aux Big Data à l’horizon 2020.»
• « L’objectif du plan "Big Data" est de faire de la
France la référence mondiale dans ce domaine. »
-- http://www.redressement-productif.gouv.fr/files/la-nouvelle-france-industrielle.pdf

Big Data en France
• « Tous les secteurs économiques, du commerce au
secteur automobile en passant par le secteur
énergétique, tous les domaines de la vie quotidienne
(santé, éducation...) sont concernés.»
• « Les enjeux sont considérables, d’abord sur un plan
économique : on évalue à 8% du PIB européen la
création de valeur liée aux Big Data à l’horizon 2020.»
• « L’objectif du plan "Big Data" est de faire de la France
la référence mondiale dans ce domaine. »
-- http://www.redressement-productif.gouv.fr/files/la-nouvelle-france-industrielle.pdf

Use case : analyse des données

-- http://www.elasticsearch.org/overview/kibana/

Use case : sémantique et visualisation

-- http://search.carrot2.org/stable/search

Elasticsearch @Github ::
Elasticsearch @Github
••20TB de données
20 TB de données
••1.3milliards de fichiers
1.3 milliards de fichiers
••130milliards de lignes
130 milliards de lignes
de code
de code

Search @Linkedin ::
Search @Linkedin
••238millions d’utilisateurs
238 millions d’utilisateurs
••5,7milliards de recherches de
5,7 milliards de recherches de
professionnels en 2012
professionnels en 2012

Big Data @Amazon ::
Big Data @Amazon
••Picsde 200 articles
Pics de 200 articles
vendus par seconde
vendus par seconde

Search, nosql et bigdata avec les moteurs de recherche

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Search, nosql et bigdata avec les moteurs de recherche

Ähnlich wie Search, nosql et bigdata avec les moteurs de recherche (20)

Mehr von Lucian Precup

Mehr von Lucian Precup (9)

Search, nosql et bigdata avec les moteurs de recherche

Hinweis der Redaktion