Aujourd’hui, les entreprises collectent des informations de plus en plus nombreuses et variées sur leurs clients. S’appuyant sur les dernières techniques statistiques et mathématiques (analyse factorielle, régression, arbres de décision, textmining, webmining, réseaux neuronaux, moteur bayesiens,...), le Data Mining a pour objectif d’exploiter ce réservoir de richesse inégalée en transformant ces données en indicateurs marketing et commerciaux.
2. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Customer Lifetime Management Analyst à
MTN-CI depuis Juillet 2011
Professeur vacataire de Marketing et Etudes
de marchés à l’ENSEA (ITS Option Entreprise)
depuis 2013.
Concpeteur et administrateur de la page
facebook Intelligence Marketing:
www.facebook/pages/Intelligence-Marketing
CEO du Bureau d’Etude Spécialisé dans le
traitement de l’INFOrmation (BEST-INFO):
Cabinet spécialisé dans l’E-commerce et
Data-Analytics.
PRESENTATION DE L’INTERVENANT
Jean Roger MABLY
3. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
PLAN DE PRESENTATION
1. Origine et Définition du Datamining
2. Apport du Datamining
3. Comparaison Datamining vs Statistiques et Datamining
vs Big Data
4. Le Datamining d’hier, d’aujourd’hui et de demain
PARTIE I: INTRODUCTION AU DATAMINING
PARTIE II: PANORAMA DES TECHNIQUES DATAMINING
1. Les grands groupes de modèles
2. Analyse factorielle
3. Classification/Prédiction
4. Segmentation
5. Associations
4. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
PLAN DE PRESENTATION (2)
PARTIE III: DOMAINES D’APPLICATIONS
1. Utilité du Datamining dans le CRM
2. Utilité dans la banque
3. Datamining dans l’assurance de risque
4. Datamining dans la téléphonie
5. Le datamining dans le commerce
6. Autres exemples
PARTIE IV: CONSTRUIRE UN PROJET DATAMINING
1. SEMMA (SAS)
2. CRISP-DM (CLEMENTINE)
PARTIE V: UTILISATION D’OUTILS
1. CLEMENTINE
2. TANAGRA
6. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
La fouille des données
Le DATAMINING est l’ensemble des:
techniques et méthodes
… destinées à l’exploration et l’analyse
… de (souvent) grandes bases de données informatiques
… en vue de détecter dans ces données des règles, des associations,
des tendances inconnues (non fixées a priori), dans des structures
particulières restituant de façon concise l’essentiel de l’information utile.
… pour l’aide à la décision.
On parle alors d’extraction de l’information dans la donnée
Selon le MIT, c’est l’une des 10 technologies émergentes qui
« changerons le monde » au XXIème siècle
L’ONU à déclaré le 20 Octobre comme Journée mondiale de la
Statistique
7. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Intérêt du data mining
On ne veut pas simplement confirmer des intuitions a priori par des requêtes
dans les bases de données mais détecter sans a priori les
combinaisons de critères les plus discriminantes
Par exemple, dans le domaine commercial, on ne veut plus seulement savoir:
« Combien de clients ont acheté tel produit pendant telle période ? »
Mais:
« Quel est leur profil ? »
« Quels autres produits les intéresseront ? »
« Quand seront-ils intéressés ? »
Les profils de clientèle à découvrir sont en général des profils complexes : pas
seulement des oppositions « jeunes/seniors », « citadins/ruraux »… que l’on
pourrait deviner en tâtonnant par des statistiques descriptives
Le data mining fait passer:
d’analyses confirmatoires
à des analyses exploratoires
8. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
À quoi sert le data mining?
Sondage effectué en 2009 sur:
www,kdnudgets.com
Mieux connaitre le client
Mettre en évidence des facteurs
de risques
Test de médicaments et de
comestiques
Détection automatique de fraude
Contôle de qualité des produits
Prévision d’audience TV
Astrophysique pour le
classement des étoiles ou
galaxie
Détection automatique de spam
Algorithm des moteur de
recherche…
9. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Préhistoire du data mining
1875 : régression linéaire de Francis Galton
1896 : formule du coefficient de corrélation de Karl Pearson
1900 : distribution du ² de Karl Pearson
1936 : analyse discriminante de Fisher et Mahalanobis
1941 : analyse factorielle des correspondances de Guttman
1943 : réseaux de neurones de Mc Culloch et Pitts
1944 : régression logistique de Joseph Berkson
1958 : perceptron de Rosenblatt
1962 : analyse des correspondances de J.-P. Benzécri
1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan
1965 : méthode des centres mobiles de E. W. Forgy
1967 : méthode des k-means de Mac Queen
1972 : modèle linéaire généralisé de Nelder et Wedderburn
10. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Histoire du data mining
1975 : algorithmes génétiques de Holland
1975 : méthode de classement DISQUAL de Gilbert Saporta
1980 : arbre de décision CHAID de KASS
1983 : régression PLS de Herman et Svante Wold
1984 : arbre CART de Breiman, Friedman, Olshen, Stone
1986 : perceptron multicouches de Rumelhart et McClelland
1989 : réseaux de T. Kohonen (cartes auto-adaptatives)
vers 1990 : apparition du concept de data mining
1991 : méthode MARS de Jerome H. Friedman
1993 : arbre C4.5 de J. Ross Quinlan
1996 : bagging (Breiman) et boosting (Freund-Shapire)
1998 : support vector machines de Vladimir Vapnik
2001 : forêts aléatoires de L. Breiman
2005 : méthode elastic net de Zhou et Hastie
11. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining aujourd’hui
Ces techniques ne sont pas toutes récentes
Ce qui est nouveau, ce sont aussi :
les capacités de stockage et de calcul offertes par l’informatique
moderne
la constitution de giga-bases de données pour les besoins de
gestion des entreprises
la recherche en théorie de l’apprentissage
les logiciels universels, puissants et conviviaux (Clementine, EG &
Miner de SAS
l’intégration du data mining dans les processus de production
Ces évolutions permettent de traiter de grands volumes de
données et font sortir le data mining des laboratoires de
recherche pour entrer dans les entreprises
12. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining aujourd’hui (2)
Agrégation de modèles
rééchantillonnage bootstrap, bagging, boosting…
Web mining:
optimisation des sites
meilleure connaissance des internautes
croisement avec les bases de données de l’entreprise
Text mining
statistique lexicale pour l’analyse des courriers, courriels, dépêches,
compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et
Yahoo Spam, Moteurs de recherches Google, Bing…
Image mining
reconnaissance automatique d’une forme ou d’un visage (Google
Glass, reconnaissance des sosie de la CIA…)
détection d’une échographie anormale, d’une tumeur
13. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining de demain
Autant de
développement
possible que
votre
imagination ne
peut vous le
permettre
14. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
data mining vs statistique
DATAMINING
STATISTIQUE
Le datamining:
1. Traite plus de données
2. S’applique à une
population entière
3. Travaille sur des données
existante
4. Orienté pratique
5. Compréhensibilité des
modèles plutôt que
précision
6. Modèles localisés
La statistique:
1. Traite moins de
données
2. S’applique à un
échantillon représentatif
3. Recueille des données
avant le travail
4. Orienté théorie
5. Précision des modèles
plutôt que
Compréhensibilité
6. Modèles généralisés
Le datamining utilise des techniques statistiques
15. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
data mining vs big data
Le data mining est l’ensemble des techniques analytiques qui
permettent d‘extraire de l’information d’une masse de données
La Big Data est l’ensemble des techniques informatiques
qui permettent de recueillir le plus grand nombre de
données de toutes formes
BIG DATA =
VELOCITY +
VERACITY +
VOLUME
DATA MINING =
STATISTIQUE +
APPRENTISSAGE +
INTELLIGENCE
ARTIFICIELLE
17. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Les 2 types de techniques Le data mining
Les techniques descriptives (recherche de « patterns »):
visent à mettre en évidence des informations présentes mais
cachées par le volume des données (c’est le cas des segmentations de
clientèle et des recherches d’associations de produits sur les tickets de
caisse)
réduisent, résument, synthétisent les données
il n’y a pas de variable à expliquer
Les techniques prédictives (modélisation) :
visent à extrapoler de nouvelles informations à partir des informations présentes
(c’est le cas du scoring) la constitution de giga-bases de données pour les
besoins de gestion des entreprises
expliquent les données
il y a une variable à expliquer
18. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce que la segmentation et factorisation ?
(classificationenanglais)
Regrouper des objets en groupes, ou classes, ou familles,
ou segments, ou clusters, de sorte que :
2 objets d’un même groupe se ressemblent le + possible
2 objets de groupes distincts diffèrent le + possible
le nombre des groupes est parfois fixé
les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération
Méthode descriptive :
pas de variable cible privilégiée
décrire de façon simple une réalité complexe en la résumant
Utilisation en marketing, médecine, sciences humaines…
segmentation de clientèle marketing
Les objets à classer sont :
des individus
des variables
les deux à la fois (biclustering)
19. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce que la classification ou prédiction?
(segmentationenanglais)
Ce sont des méthodes prédictives
Classement : la variable à expliquer (ou « cible », « réponse »,
« dépendante ») est qualitative
on parle aussi de segmentation (en anglais) ou de discrimination
Prédiction : la variable à expliquer est quantitative
on parle aussi de régression
ou d’apprentissage supervisé (réseaux de neurones, arbres de décision…)
Scoring : classement appliqué à une problématique d’entreprise
(variable à expliquer souvent binaire) – chaque individu est affecté à une
classe (« sain » ou « malade », par exemple) en fonction de ses
caractéristiques
20. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Quelque types de score
Score d’appétence
prédire l’achat d’un produit ou service
Score de (comportement) risque
prédire les impayés ou la fraude
Score de préacceptation
croisement des deux précédents
Score d’octroi
prédire en temps réel les impayés
Score d’attrition
prédire le départ du client vers un concurrent
Et aussi :
En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et
des analyses médicales
Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence
des mots…)
21. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce qu’une regle d’associations
Ce sont des méthodes prédictives pour détecter des
liaisons entre des « individus » d’un groupe ou d’en
ensemble
E.g. Panier de la ménagère : qu’elles sont les éléments qui viennent ensemble ? si vous
avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi
Pour découvrir modèles prédictifs cachés:
Parfois les modèles prédictifs intéressant sont cachées
La découverte d’association permet de trouver plusieurs petits lots de règles et peut de
découvrir les modèles “masqués”
Exploration Générale :
“Ne sais pas exactement qu’est ce que je cherche, mais juste dis moi qui va avec quoi”
23. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Utilité du datamining dans le CRM (gestion de la
relation client)
Mieux connaître le client
pour mieux le servir
pour augmenter sa satisfaction
pour augmenter sa fidélité (+ coûteux
d’acquérir un client que le conserver)
La connaissance du client
est encore plus utile dans
le secteur tertiaire :
les produits se ressemblent entre
établissements
le prix n’est pas toujours déterminant
ce sont surtout le service et la relation
avec le client qui font la différence
24. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Exemple de Credit scoring
Objectifs de la banque :
vendre plus
en maîtrisant les risques
en utilisant les bons canaux au
bon moment
Le crédit à la
consommation:
un produit standard
concurrence des sociétés
spécialisées sur le lieu de vente
quand la banque a connaissance
du projet du client, il est déjà trop
tard
Conclusion :
il faut être pro-actif détecter les
besoins des clients et leur
tendance à emprunter
Faire des propositions
commerciales aux bons clients,
avant qu’ils n’en fassent la
demande
25. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans la Banque
Naissance du score de risque en 1941 (David Durand)
Multiples techniques appliquées à la banque de détail et la
banque d’entreprise
Surtout la banque de particuliers :
montants unitaires modérés
grand nombre de dossiers
dossiers relativement standards
Essor dû à :
développement des nouvelles technologies
nouvelles attentes de qualité de service des clients
concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de
crédit
pression mondiale pour une plus grande rentabilité
surtout : ratio de solvabilité Bâle 2
26. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans l’assurance de risque
Des produits obligatoires (automobile, habitation) :
soit prendre un client à un concurrent
soit faire monter en gamme un client que l’on détient déjà
D’où les sujets dominants :
Attrition
ventes croisées (cross-selling)
montées en gamme (up-selling)
Besoin de décisionnel dû à :
concurrence des nouveaux entrants (bancassurance)
bases clients des assureurs traditionnels mal organisées :
compartimentées par agent général
ou structurées par contrat et non par client
vendre plus
en maîtrisant les risques
27. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans la telephonie
Deux événements :
ouverture des monopoles nationaux à d’autres opérateurs télécom
arrivée à saturation du marché de la téléphonie mobile
D’où les sujets dominants dans la téléphonie :
score d’attrition (churn = changement d’opérateur)
optimisation des campagnes marketing
text mining (pour analyser les lettres de réclamation)
Problème du churn :
coût d’acquisition moyen en téléphonie mobile : 50,000 frs env
plus d’un million d’utilisateurs changent chaque d’année d’opérateur
En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en
diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur
la portabilité du numéro facilite le churn
28. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans le commerce
Vente Par Correspondance
utilise depuis longtemps des scores d’appétence
pour optimiser ses ciblages et en réduire les coûts
des centaines de millions de documents envoyés par an
e-commerce
personnalisation des pages du site web de l’entreprise, en fonction du
profil de chaque internaute
optimisation de la navigation sur un site web
Grande distribution
analyse du ticket de caisse
détermination des meilleures implantations (géomarketing)
29. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Autres exemples d’utilisation du data mining
De l’infiniment petit (génomique) à l’infiniment grand
(astrophysique pour le classement en étoile ou galaxie)
Du plus quotidien (reconnaissance de l’écriture
manuscrite sur les enveloppes) au moins quotidien (aide
au pilotage aéronautique)
Du plus ouvert (e-commerce) au plus sécuritaire
(détection de la fraude dans la téléphonie mobile ou les
cartes bancaires)
Du plus industriel (contrôle qualité pour la recherche des
facteurs expliquant les défauts de la production) au plus
théorique (sciences humaines, biologie…)
Du plus alimentaire (agronomie et agroalimentaire) au
plus divertissant (prévisions d’audience TV)
30. CONSTRUIRE UN
PROJET DATAMINING
Quelles sont les etapes pour
aboutir au bon modele
Quelles sont les diiferents
méthodes existantes ?
Quelle difference entre SAS et
SPSS?
b IV
31. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Démarche methodologique du data mining
Comprendre l’application ou le problème
Connaissances a priori, objectifs, etc.
Sélectionner un échantillon des données
Choisir une méthode d’échantillonnage
Nettoyage et transformation des données
Supprimer les « bruits »: données superflues, marginales, données manquantes,
etc.
Appliquer les techniques de fouille des données
Choisir le bon algorithme
Visualiser, évaluer et interpréter les modèles découverts
Analyse de la connaissance (intérêt)
Vérifier sa validité ( sur le reste de la base de données)
Réitérer le processus si nécessaire.
Gérer la connaissance découverte
La mettre à la disposition des décideurs
L’échange avec d’autres applications (système d’expert,…)
Etc.
32. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Les étapes du processus du data mining
1.Compréhension du domaine d’application
2.Création du fichier cible (target data set)
3.Traitement des données brutes (data cleaning &
prepocessing)
4.Réduction des données (data reduction and projection)
5.Définition des taches de fouille des données
6.Choix des algorithmes appropriés de fouilles de données
7.Fouille de données (data mining)
8.Interprétation des formes extraites (mined patterns)
9.Validation des connaissances extraites
10.Déploiement des algorithmes.
33. www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
SEMMA (SAS) vs CRISP-DM (CLEMENTINE)
Sampling = Echantillonner
Tirer un échantillon significatif
pour extraire des modèles
Exploration = Explorer
Devenir famillier avec les données
(patterns)
Manipulation = Manipuler
Ajouter des informations, coder,
grouper des attributs
Appmodelling = Modeliser
Contruire des modèles
Assement = Valider
Comprendre , Valider, expliquer et
repondres aux questions
Sampling = Echantillonner
Tirer un échantillon significatif
pour extraire des modèles
Exploration = Explorer
Devenir famillier avec les données
(patterns)
Manipulation = Manipuler
Ajouter des informations, coder,
grouper des attributs
Appmodelling = Modeliser
Contruire des modèles
Assement = Valider
Comprendre , Valider, expliquer et
repondres aux questions
34. APPLICATIONS
Apprendre à manipuler
Clémentine (Software)
Apprendre à manipuler
Tanagra (Freeware)
b IV
Attention!
Before you open this template be sure what you have the following fonts installed:
Novecento Sans wide font family (6 free weight)
http://typography.synthview.com
Abattis Cantarell
http://www.fontsquirrel.com/fonts/cantarell
Icon Sets Fonts:
raphaelicons-webfont.ttf from this page: http://icons.marekventur.de
iconic_stroke.ttf from this page: http://somerandomdude.com/work/open-iconic
modernpics.otf from this page: http://www.fontsquirrel.com/fonts/modern-pictograms
general_foundicons.ttf, social_foundicons.ttf, accessibility_foundicons.ttf from this page: http://www.zurb.com/playground/foundation-icons
fontawesome-webfont.ttf from this page: http://fortawesome.github.io/Font-Awesome
Entypo.otf from this page: http://www.fontsquirrel.com/fonts/entypo
sosa-regular-webfont.ttf from this page: http://tenbytwenty.com/?xxxx_posts=sosa
All fonts are permitted free use in commercial projects.
If you have difficulties to install those fonts or have no time to find all of them, please follow the FAQs:
http://graphicriver.net/item/six-template/3626243/support