OÙ SE TROUVE LA VALEUR ?
Business
Données
Contenus
« Legacy »
Documents
Pour l’extraire,
vos informations
doivent être
• Référencées
• Intégrées
• Uniformisées (indexées)
• Liées (entre elles)
• Auditées
• Reformatées
• …
3
VOTRE MOTEUR DE RECHERCHE
Le bon moteur pour vos informations se trouve ici !
L’OPEN SOURCE OFFRE UNE LARGE GAMME DE SOLUTIONS
4
ET DE NOMBREUX OUTILS POUR L’AMÉLIORER
Des briques open source pour les fonctions clés :
Analyse sémantique
Expansion de recherche
Clustering automatique
Gestion de thésaurus
ginco
10
ELASTICSEARCH
UN ÉCOSYSTÈME ORIENTÉ DONNÉES
ElasticSearch
Moteur de recherche et
analytics
Logstash
Collecte, enrichissement
de données
Marvel
Monitoring solution
Watcher
Alertes & notifications
basées sur les données
Kibana
Visualisation et
exploration de données
Shield
Sécurité et contrôle
d’accès aux données.
Beats
Collecte de données
réseaux
11
ELASTICSEARCH
Moteur de recherche et d’analyse REST
Construit sur Apache Lucene
Chez Smile : remplacement de SolR
Licence Open Source
Apache 2
Fonctionnalités uniques
Percolation
Agrégations
Intégration Hadoop & Spark
Simple à mettre en œuvre
Courbe d’apprentissage rapide
Déploiement et administration simple
QU’EST-CE QUE C’EST ?
Recherche fulltext
Données hétérogènes & schéma évolutif
Indexation temps réel
Analyse temps réel
Distribué & haute disponibilité
12
ELASTIC.CO
L’ENTREPRISE DERRIÈRE ELASTICSEARCH
Partenaire privilégié avec Smile
2 sièges sociaux
EU : Amsterdam (Pays-Bas)
US : Los Altos (Californie)
Présence commerciale & opérationnelle en
France
Un produit leader
Plus de 8 millions de téléchargements depuis 2008
> 500 000 téléchargements par mois
150 employés
Croissance forte à 3 chiffres
+400% ces 9 derniers mois
BusinessModel
•Ventes de support et
de formation pour ES
•3 niveaux de support
(Silver, Gold,
Premium).
Par nœuds
•Différents SLA y
compris 24/7 SLA
•Produits réservés aux
souscripteurs de
support : Shield,
Marvel & Watcher
Investors
•Benchmark Capital
$10M Series A, 2012
•Index Ventures
$24M Series B, 2013
With participation
from Benchmark
Capital
•New Enterprise
Associates $70M
Series C, 2014
With participation
from Benchmark
Capital and Index
Ventures
14
USE CASE
Répondre à l’enjeu stratégique d’une vision complète du client
Chaque client a des interactions multiples avec votre marque
Chaque canal régénère des traces techniques (Web, mobile, téléphone, magasin)
Pourquoi faire ?
Conseil : en magasin, par téléphone, avant un rendez-vous
Recommandation : le bon contenu à la bonne personne
Ciblage d’opération marketing : segmentation, corrélation offre / profil
…
Et comment ?
Collecter et analyser de grandes volumétries d’informations sur les clients et les prospects
Exploiter les Framework du Big Data et d’Elastic pour apporter une réponse opérationnelle au métier
VUE CLIENT À 360°
15
Index client à 360°
USE CASE
VUE CLIENT À 360° Clients
Prospects
Collecte
Indexation donnée
comportementale
Smile_Modules :
Système Big Data
Un dispositif de collecte des données
comportementales (web, in store, téléphone…)
A
APIs
API Vue
Client à
360°
API
Ciblage
client
API
Recommandations
…
Sources
de données
traditionnelles
CRM
Help
Desk
…
Système de traitement Système de stockage / historisation
USE CASE
• Calcul d’un score
d’appétence par catégorie
de produit / offre
• Permet d’orienter la relation
client lors des contacts 1 to 1
(in-store ou par téléphone)
• Permet d’établir des listes de
prospection
Ex: Tous les clients intéressés par le
rayon « Jeux PS4 »
Prospection automatique (mailing,
notifications,…) ou sollicitation
ciblée (téléphone)
VUE CLIENT À 360°
Exemple de notre projet interne
Le marketing créé des contenus à forte valeur
ajoutée dont la consultation est un indicateur sur
d’appétence
Relativement simple sur un système e-commerce : la
fiche produit
UN MOTEUR DE RECHERCHE POUR LE E-COMMERCE
Objectif du projet :
• Disposer d’un moteur de
recherche spécialisé dans
le e-commerce
• Fonctionnalités fulltext et
de merchandising à l’état
de l’art
• Inclure des mécanismes
d’optimisation qui
s’appuient sur le
comportement des
utilisateurs
• Projet diffusé en Open
Source
MODULE ELASTICSEARCH POUR MAGENTO
Architecture technique
Website Users
Search Queries
Catalog Index
Behavioral Data Index
Website Usage
Collect Data
Smile Webtracker
Product
Data
Indexing
User Behavior
Indexing
Smile_ElasticSearch
Smile_VirtualCategories Smile_Tracker
Smile_SearchOptimizer
Smile_Modules :
Le dispositif de collecte des données utilisateurs via web tracking permet
d’agir sur la pertinence en temps réel
Il est construit sur des briques Big Data : Apache Spark & Apache Kafka
21
SMILE ELASTICSEARCH
BOOSTER VOTRE INTRANET
Facettes
Sélection de facettes multiples
Gestion multi sources et sur les sources
Filtre sur date, sur les notes, sur les auteurs
Personnalisation facile par les développeurs
Autocomplétion
Recherche populaires, produits, catégories,
Extensible pour ajouter d’autres contenus : bases, CMS…
Amélioration de la recherche plein texte
Pondération de chaque attribut pour la recherche, depuis le back-office
Recherche floue : « Frankenshten » donnera « Frankenstein »
22
SMILE ELASTICSEARCH
BOOSTER VOTRE INTRANET
Catégories intelligentes
Définition de catégories par des règles
(en plus d’une sélection manuelle)
Interface de gestion conviviale et intégrée
Optimisations de la pertinence
Ajout de règles métiers pour modifier la pertinence
o « Booster les contenus produits ou notés par des experts »
o « faire le lien entre un même contenu stocké deux fois »
Extensible par un framework de développements
23
SMILE ELASTICSEARCH
BOOSTER VOTRE INTRANET
Visualisation des résultats
Affichage des résultats avec et sans l’optimiseur
Permettre de raffiner les résultats
Tri au sein des catégories virtuelles
Pour déterminer manuellement les positions des produits au sein
des catégories définies automatiquement par des règles
o Ex : positionner une « réglementation européenne récente » en
fonction d’une requête donnée (mise en avant)
Tri dans les résultats de recherche
Permet d’ordonner les produits qui sont affichés pour des
recherches définies.
o Ex : mise en avant de la robe « Kali » pour la requête de recherche
« robe » (ou « robes »…)
28
+ 20
A QUOI SERT UN MOTEUR DE RECHERCHE ?
Ce que les utilisateurs attendent
Trouver
Fédérer / uniformiser
Ce qu’il faut faire
Un moteur rapide et adapté
Une bonne exploitation de l’indexation
La gestion des droits
La prise en compte de tous les contenus (Web / document / produit…)
Gérer le « bruit » et « silence »
Exploiter les outils à valeur ajoutée
o Classification, thésaurus, ontologie…
29
FONCTIONS ESSENTIELLES
Indexation des contenus
Crawler – temps différé
Connecteur – temps réel
Deux types de recherches
« plein texte » (Full text) vs. documentaire
Fédérée avec gestion des droits des utilisateurs
Exploitation des contenus
Classement / navigation / cluster
Statistique / administration
Intégration
API, Webservice…
Gestion des droits (SSO)
30
Morpho-syntaxique
• Correction et phonétique
• Cross-lingue
• Extraction d’entités nommées
Sémantique
• Analyse du sens (meaning)
• Recherche par l’exemple
• Catégorisation
Statistique
• Indexation plein texte
• Analyse de corpus
• Détection des liens
• Extraction de concept
Structurée
• Indexation structurée
• Navigation multidimensionnelle
• Exploitation des métadonnées
COMMENT FAIT ON LA RECHERCHE ?
LES TYPES D’ANALYSE
RECHERCHE FÉDÉRÉE ONE SEARCH FOR ALL
Trouver dans
plusieurs
ensembles de
contenus
Les bases sont hétérogènes et leur plus
petit commun dénominateur (ppcm)
réduit, l’objectif est de ne pas passer à
côté d’une information.
Fonctions de recherche dépendant à la
technologie utilisée (crawling,
connecteur)
33
Export des contenus
indexe
Crawling de base(s) Connecteur
• Contrôle des contenus a
priori
• Temps réel
• Contrôle des contenus à
postériorité (crawler)
• Pas de temps réel
• Gestion des droits
• Temps réel
• Maintenance importante
indexe indexe
INDEXATION DES CONTENUS
SUR QUOI S’EXÉCUTE LA RECHERCHE ?
34
INDEXATION DES CONTENUS
Nombre de bases
Hétérogénéité technologique
Evolutivité du système
Architecture des bases
Centralisées / réparties
Bases internes, externes
Contrôlées ou non (internet)
Puissance de recherche
Opérateurs disponibles
Vitesse d’exécution / nombre de recherches
ELÉMENTS D’ARBITRAGE DE CHOIX DES MÉTHODES
ARCHITECTURE DES MOTEURS
LES CAS FRÉQUENTS
Brique intégrée
embarquée dans une
solution
Brique
« branchée »
mais indépendante
moteur
moteur
requête
TYPES DE RECHERCHES
Quel est votre
projet ?
Sachez identifier les
leviers de succès
Recherche (simple)
trouver quelque chose dans un ensemble
Souvent « Google like »
o Simple et intelligent
Recherche fédérée
trouver quelque chose dans plusieurs ensembles
Souvent plus élaborée
o Simple et puissant
Recherche sur le poste de travail
Trouver quelque chose sur son ordinateur
Le plus souvent intégré à l’OS
EXPLOITATION DES RÉSULTATS
FONCTIONS CLÉS
Navigation dans les résultats
Catégorisation (clustering)
Affichage par facettes
Trier et classer
Filtrer et affiner
Thésaurus, plan de classement
Export
Liste
Graphique
Alerte
Requêtes rejouées périodiquement
Communication du différentiel
On ne
cherche
jamais que
pour trouver