SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
30/12/2011




 Introduction à la fouilles
       de données

                 Partie 1




                                                  1




Informatique décisionnelle
 Chargement périodique des données
               é                   é
 Pas de modifications des données
 Interrogations non régulières, planifiées, parfois
 longues des systèmes d’information décisionnels
 Exemples de questions:
    Quelles sont les ventes du produit X pendant le
    trimestre A de l'année B dans la région C ?
      i         d l'    é    d     l é i
    Comment se comporte le produit X par rapport au
    produit Y?
    Quel type de client peut acheter le produit X?
 Exemple: OLAP (Codd)
                                                 2




                                                              1
30/12/2011




Exemples
 http://www.amazon.fr
 http://www amazon fr
 Le panier de la ménagère
 Connaissez-vous?




                                             3




Questions
 Est ce
 Est-ce une bonne idée de faire de la publicité
 de musique rap dans des magazines pour
 personnes âgées?
 Est-ce que vous saviez que les compagnies
 de cartes de crédit peuvent suspecter un vol
 de carte, même si le propriétaire de la carte
 n’est pas encore au courant?
 Est-ce que vous savez pourquoi les
 entreprises liées à la bourse sponsorisent les
 tournois de golfs télévisés?
                                             4




                                                          2
30/12/2011




Plan et objectifs

 Comprendre ce qu’est la FDD?
 KDD
 Modèles
 Applications de la FDD
  pp ca o s       a
 Recherche en FDD


                                       5




Plan et objectifs

 Définition du Data Mining
 Pourquoi le Data Mining ?
 Description du processus KDD
 (Knowledge Data Discovery)
 Applications
 Tâches et Techniques du Data Mining

                                       6




                                                   3
30/12/2011




Données et information
 Les entreprises produisent des quantités
 énormes de données
   Sources: affaires, science, géographie,
   environnement…
 Les données sont des ressources de valeur
 Besoin de techniques pour analyser les
 données et extraire d i f
 d    é    t t i des informations /
                                ti
 connaissances automatiquement
   Données = faits
   Information = modèle / motif (pattern) dans les
   données
                                                     7




Fouille de données (FDD)
 Fouille / découverte de connaissances dans
 les données ou création d’un modèle des
 données
 Processus qui emploie des techniques
 d’apprentissage automatiques et intelligentes
 pour analyser et extraire des connaissances,
 de grandes quantités de données
 98% de ce que les humains apprennent
 proviennent de reconnaissance des formes
 [Kurzwell]
                                                     8




                                                                 4
30/12/2011




Pourquoi la FDD maintenant?
 Des machines plus puissantes
 Existence d’algorithmes de fouille de données
 Collections et sauvegardes des données
 améliorées
 Domaine à la confluence de différents
 domaines: base de données, statistiques,
                                 ,         q ,
 intelligence artificielle, visualisation,
 parallélisme…
 Domaine pluridisciplinaire

                                               9




KDD*
 Découverte de connaissances dans les
 données (KDD)
 Application de méthodes scientifiques à la
 fouille de données
 Le processus de KDD est composé de:
   Sélection des données
   Pré-traitement des données
   Transformation des données
   La fouille de données
   Interprétation et évaluation des modèles
                                              10




                                                           5
30/12/2011




Systèmes pour la FDD*
 Composition:
   Bases de données, entrepôts de données…
   Serveurs de bases de données ou
   d’entrepôts de données
   Bases de connaissances
   Engins de fouille de données
   Modules d’évaluation du modèle
   Interfaces graphiques pour l’utilisateur

                                                   11




Apprendre
 Apprendre quelque chose de nouveau
 Faits (vrais ou faux)
 Concepts
    Ensembles de symboles, objets et évènements
    groupés parce qu’ils partagent les mêmes
    caractéristiques
 Procédures
    Cours d’actions réalisées é
                      é é étape par é   étape pour
    atteindre un but
 Principes
    Plus haut niveau d’abstraction
    Règles ou vérités qui sont les bases pour d’autres
    vérités                                         12




                                                                 6
30/12/2011




Apprentissage supervisé
 Modèle inductif où l’apprenant considère un
                      l apprenant
 ensemble d’exemples, et infère
 l’appartenance d’un objet à une classe en
 considérant les similarités entre l’objet et les
 éléments de la classe
 Les classes sont étiquetées préalablement
 (sports et loisirs art et culture )
            loisirs,       culture…)
 La plupart des algorithmes (classification,
 estimation, prédiction) utilisent
 l’apprentissage supervisé
                                               13




Apprentissage non supervisé
  Construction d un modèle et découverte des
                d’un
  relations dans les données sans référence à
  d’autres données
  On ne dispose d'aucune autre information
  préalable que la description des exemples
  La segmentation, le regroupement (cluster)
     segmentation                    (cluster),
  la méthode des k-moyennes et les
  associations sont des méthodes
  d’apprentissage non supervisées
                                               14




                                                            7
30/12/2011




Concepts / Modèles
 Les concepts sont les résultats de la fouille de
 données
 Ils montrent les relations dans les données ou
 groupent des éléments fondés sur leur ressemblance
 Structures:
     Arbres de décision
     Règles
     Réseaux de neurones
     Équations mathématiques…
 Parfois, pas de réelles structures
     Exemples / Instances
     Regroupements (clusters)                     15




Exemples de modèles
 Vue classique:
   Si salaire annuel >= 30,000 et années de
   service >= 5 et propriétaire = vrai
   alors risque de défaut de paiement = faux
   Age(X, “jeune”) et Salaire(X,”élevé”) ⇒
   Classe(X, A )
   Classe(X,”A”)
 Vue probabilistique:
   La plupart des personnes qui ont un bon
   crédit sont propriétaires
                                                 16




                                                               8
30/12/2011




Exemples de modèles
 Vue exemplaire:
    Un exemple est déterminé comme une
   instance d’un concept
   Les exemples suivants sont considérés
   comme ayant un bon crédit:
     Salaire = 32,000, années = 6, propriétaire
                          é              é
     Salaire = 52,000, années = 16, locataire



                                                  17




Exemples de modèles
   Les exemples peuvent être présentés par
   des tables:

     Age     Salaire Classe          Total
    Jeune     Elevé     A            1402

    Jeune       Bas         B        1038

     Agé      Elevé         C         786

                                                  18




                                                               9
30/12/2011




Exemples de modèles

 Diagrammes:
  Histogramme
  Camembert
 Arbre d dé i i
 A b de décision
 Cube de données


                                                19




Applications: Grande
Distribution
    Vente par         Définition de
 correspondance        profils des
                         clients
  Analyse du         Prédiction des taux de
                    réponses à des listes de
 panier de la       diffusions
 ménagère
      g              Optimisation des
                       p
                    réapprovisionnements
  Analyse des
                     Propositions spécifiques
 données liées au   de services à des
 paiement           individus profilés
 (adresse, sexe…)    Élimination des
                    “mauvais” clients
                                                20




                                                            10
30/12/2011




Application: Assurances
    Assurances                Définition des
                               profils des
                                 clients
  Analyse des données         Élimination des
 personnelles (sexe, age,    “mauvais” clients
 profession…)
  Analyse des données         Tarification du
 sur les éléments à          contrat
 assurer (type de voiture,    Évaluation des
 puissance…)
                             risques
  Analyse des sinistres
                              Détection des
                             fraudes
                                                   21




Application: Banques
        Banques                Définition des
                                profils des
                                  clients
   Analyse de la               Élimination des
  situation bancaire          “mauvais” clients
  (solde, produits             Autorisation de
  bancaires …)                crédits aux “bons”
   Analyse de données         clients
  supplémentaires              Propositions
  (sexe, profession,          spécifiques de
  situation familiale…)       services
                                                   22




                                                               11
30/12/2011




Application: Banques
      Banques                  Détection des
                               évolutions de
                                  profils
 Analyse de la situation      Détection de la lassitude
bancaire (solde, produits   d’un client (possibilité de
bancaires possédés…)        trouver de nouvelles
 Analyse des données        propositions plus
supplémentaires             adaptées)
(situation familiale,         Détection de
profession…)                l’amélioration ou de la
                            détérioration de la
                            situation bancaire
                                                          23




Application: Banques
         Banques                 Détection de
                                comportements
                                  particuliers
    Analyse de la situation     Détection des
   bancaire (solde, produits
   bancaires possédés…)        fraudes
    Analyse des données        (utilisation
   supplémentaires             anormale des
   (situation familiale,
   profession…)                systèmes de
                               paiement)

                                                          24




                                                                      12
30/12/2011




Application: Bourse


 Analyse du cours de la bourse pour
 pouvoir passer des ordres automatiques
 de transactions boursières




                                                     25




Application: Production
Industrielle
    Production           Prédiction et
    industrielle         détection
  Analyse du              Optimisation de la
 fonctionnement de la    production
 chaîne de production     Adéquation au marché
  Analyse des produits    Anticipation des défauts
  Analyse des ventes      Diagnostics de pannes
                          Di      ti d
  Analyse de
 questionnaires
 (prospectifs,
 satisfaction…)

                                                     26




                                                                 13
30/12/2011




Application: Internet
     Internet      Détermination
                    d’un thème,
                     d’un sujet
  Analyse          Aide à l’organisation
 automatique de   des messages reçus
 sites toile       Moteur de
                  recherche évolué
  Analyse         (design des
 automatique du   systèmes)
 courrier          Décision de
 électronique     marketing
                   Espionnage              27




Application: Sport

 Le système SCOUT d’IBM analyse les
 matches de baskets de la NBA pour
 faire gagner les Knicks de New York




                                           28




                                                       14
30/12/2011




FDD: Sur quelles données? (1)
 Base   de   données relationnelles
 Base   de   données transactionnelles
 Base   de   données orientées objets
 Base   de   données relationnelles objets
 Base
 B      d
        de   d
             données t
                 é temporellesll
   Exemple: Bourse


                                                       29




FDD: Sur quelles données? (2)
 Base de données spatiales
   Exemples: Images provenant de satellites, cartes
   géographiques
 Base de données hétérogènes
 Base de données “héréditaires”
 Entrepôts de données*
      p
 Base de données textuelles
   Les données sont décrites par des mots
   Exemples: La toile, le courrier électronique, les
   pages html/xml
                                                       30




                                                                   15
30/12/2011




FDD: Sur quelles données? (3)
 Base de données multimédia
    Des techniques de recherche et de
    stockage avancées sont nécessaires
 La toile / Internet
 Besoins de techniques particulières à
 chaque type de données pour la fouille
 de données

                                                  31




On ne peut pas tout faire…
et tout n’est pas de la FDD
La FDD offre des outils et des méthodologies
qui peuvent aider à comprendre les données
et faire des prédictions
Mais:
  Il n’y a pas de solution générale et complètement
  automatique
  Les t h i
  L techniques doivent être adaptées au problème
                   d i    t êt  d té           blè
  considéré
  La FDD doit être comprise
  La FDD ne remplace pas les experts, mais les
  assiste
                                                  32




                                                              16
30/12/2011




 FDD: Vrai ou faux?
 Liste des produits vendus pendant le premier
 semestre 2011 par le supermarché «Carrefour»
 Total des ventes de produits de «Carrefour» en
 2011
 Les personnes qui achètent un ordinateur
 ac ète t parfois une p a te en ê e
 achètent pa o s u e imprimante e même
 temps
 Les personnes de moins de 25 ans répondent
 aux offres «A» avec une probabilité de 90%

                                                             33




 Les fonctions de la FDD:
 Classification et Prédiction
Classification et prédiction
                  p
   Diviser / grouper les instances dans des classes
   spécifiques pour des prédictions futures
   Prédire des valeurs (classes) inconnues ou manquantes
Exemples:
   Les clients loyaux / les clients non-loyaux
   Les transactions frauduleuses / les transactions générales
   Prédire les taux de réponses à une offre
      é                   é
Algorithmes:
   Arbres de décision, règles de classification, classification
   Bayésienne, algorithmes génétiques, algorithme des k
   plus proches voisins, l’approche Rough Sets, régression
   linéaire et non linéaire
                                                             34




                                                                         17
30/12/2011




Les fonctions de la FDD:
Regroupement (Cluster)
Regroupement d’éléments de proche en
                  éé
proche fondé sur leur ressemblance
Les classes sont inconnues, et sont donc
créées
Exemple:
   Segmentation du marché
Algorithmes:
   K-moyennes
   Réseaux neuronaux

                                                              35




Les fonctions de la FDD:
Associations
Mise en relation des données
                         é
Exemples:
  Le panier de la ménagère:
     Les personnes qui achètent des chips achètent aussi du
     coca-cola
  Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒
  Achete(X,”PC”)
  A h (X ”PC”) [ support = 2%, confidence =
                             2%      fid
  60%]
L’algorithme A Priori pour obtenir des règles
d’association

                                                              36




                                                                          18
30/12/2011




Les fonctions de la FDD:
Caractérisation et Discrimination
 Caractérisation: Généralise l données d’une
 C     té i ti    Gé é li les d    é d’
 classe
 Exemple:
   Général profil des régions pluvieuses
 Discrimination: Compare les données d’une
 classe avec une ou plusieurs classes (de
 comparaison)
   Gestion des anomalies
 Exemple:
   Les ventes de logiciels qui ont augmenté de 10%
   par rapport à celles qui ont augmente de 30% 37




Logiciels
 Logiciels très sophistiqués
 Weka
 DBMiner
 XLMiner
 SQL Server
      S
 …


                                                38




                                                            19
30/12/2011




Recherche en FDD (1)
 Méthodologies de FDD et interaction avec
 l’utilisateur:
   Découvrir différentes sortes de connaissances
   dans les données
   La FDD interactive
   Incorporation d’un ensemble de connaissances
   particulières
   Langage de FDD (tel que SQL, DMQL)
   Présentation et visualisation des résultats
   Traitement du bruit et des données incomplètes
   Évaluation du modèle
                                                39




Recherche en FDD (2)
 Performance
   Efficacité et adaptabilité des algorithmes
   de FDD
   Algorithmes incrémentaux et parallèles
 Diversité des types de données
                yp
   Données relationnelles et données
   complexes
   Bases de données hétérogènes…

                                                40




                                                            20
30/12/2011




Références
 J. Han,
 J Han and M Kamber Data Mining
                 M. Kamber.
 Concepts     and    Techniques.    Morgan
 Kaufmann Publishers, 2006.
 Ian H. Witten and Eibe Frank. Data Mining:
 Practical Machine Learning Tools and
 Techniques, Morgan Kaufmann Publishers,
 2006.
 2006




                                        41




                                                     21

Weitere ähnliche Inhalte

Was ist angesagt?

BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Analyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationAnalyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationMireille Blay-Fornarino
 
Introduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep LearningIntroduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep LearningNcib Lotfi
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouseHassane Dkhissi
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
 
Base de données NoSQL
Base de données NoSQLBase de données NoSQL
Base de données NoSQLOussama ARBI
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
Biométrie d'Empreinte Digitale Power Point
Biométrie d'Empreinte Digitale Power PointBiométrie d'Empreinte Digitale Power Point
Biométrie d'Empreinte Digitale Power PointIntissar Dguechi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 

Was ist angesagt? (20)

BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Analyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationAnalyse et conception des systèmes d’information
Analyse et conception des systèmes d’information
 
Introduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep LearningIntroduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep Learning
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Base de données NoSQL
Base de données NoSQLBase de données NoSQL
Base de données NoSQL
 
Big data
Big dataBig data
Big data
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Biométrie d'Empreinte Digitale Power Point
Biométrie d'Empreinte Digitale Power PointBiométrie d'Empreinte Digitale Power Point
Biométrie d'Empreinte Digitale Power Point
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 

Andere mochten auch

Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Fabrique de Prospective Région
Fabrique de Prospective RégionFabrique de Prospective Région
Fabrique de Prospective RégionCQH
 
Créer un compte google
Créer un compte googleCréer un compte google
Créer un compte googlelocale
 
Marketing pour le porteur de projet
Marketing pour le porteur de projetMarketing pour le porteur de projet
Marketing pour le porteur de projetFred Colantonio
 
Ecoparc integral
Ecoparc integral Ecoparc integral
Ecoparc integral guest1d76a0
 
Expressions nourriture+corrige
Expressions nourriture+corrigeExpressions nourriture+corrige
Expressions nourriture+corrigehelenaaldaz
 
Animation De Groupe
Animation De GroupeAnimation De Groupe
Animation De Groupemagju
 
Media Sociaux_MFC 010310
Media Sociaux_MFC 010310Media Sociaux_MFC 010310
Media Sociaux_MFC 010310mariefrancecote
 
Rapport senateur bockel surligné cyber defense - 19 juillet 2012
Rapport senateur bockel surligné  cyber defense - 19 juillet 2012Rapport senateur bockel surligné  cyber defense - 19 juillet 2012
Rapport senateur bockel surligné cyber defense - 19 juillet 2012Gilles Sgro
 
Prise en main de Dreamweaver
Prise en main de DreamweaverPrise en main de Dreamweaver
Prise en main de DreamweaverAbdoulaye Dieng
 
1 Lukacs Paris20
1 Lukacs Paris201 Lukacs Paris20
1 Lukacs Paris20charafs
 
Sophia conf2014 press-review-janua
Sophia conf2014 press-review-januaSophia conf2014 press-review-janua
Sophia conf2014 press-review-januaPascal Flamand
 
Outils Du Studio De Tele
Outils Du Studio De TeleOutils Du Studio De Tele
Outils Du Studio De Telelongbri
 

Andere mochten auch (20)

Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Bilan des accompagnements
Bilan des accompagnementsBilan des accompagnements
Bilan des accompagnements
 
Fabrique de Prospective Région
Fabrique de Prospective RégionFabrique de Prospective Région
Fabrique de Prospective Région
 
Lesson March 26
Lesson March 26Lesson March 26
Lesson March 26
 
Créer un compte google
Créer un compte googleCréer un compte google
Créer un compte google
 
Marketing pour le porteur de projet
Marketing pour le porteur de projetMarketing pour le porteur de projet
Marketing pour le porteur de projet
 
Ecoparc integral
Ecoparc integral Ecoparc integral
Ecoparc integral
 
Expressions nourriture+corrige
Expressions nourriture+corrigeExpressions nourriture+corrige
Expressions nourriture+corrige
 
Voeux Club Ies
Voeux Club IesVoeux Club Ies
Voeux Club Ies
 
Animation De Groupe
Animation De GroupeAnimation De Groupe
Animation De Groupe
 
Media Sociaux_MFC 010310
Media Sociaux_MFC 010310Media Sociaux_MFC 010310
Media Sociaux_MFC 010310
 
Rapport senateur bockel surligné cyber defense - 19 juillet 2012
Rapport senateur bockel surligné  cyber defense - 19 juillet 2012Rapport senateur bockel surligné  cyber defense - 19 juillet 2012
Rapport senateur bockel surligné cyber defense - 19 juillet 2012
 
Quotes
QuotesQuotes
Quotes
 
Prise en main de Dreamweaver
Prise en main de DreamweaverPrise en main de Dreamweaver
Prise en main de Dreamweaver
 
1 Lukacs Paris20
1 Lukacs Paris201 Lukacs Paris20
1 Lukacs Paris20
 
Sophia conf2014 press-review-janua
Sophia conf2014 press-review-januaSophia conf2014 press-review-janua
Sophia conf2014 press-review-janua
 
Leo dico
Leo dicoLeo dico
Leo dico
 
Outils Du Studio De Tele
Outils Du Studio De TeleOutils Du Studio De Tele
Outils Du Studio De Tele
 

Ähnlich wie Cours fouille de donn+®es part1

Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Jeremy Greze
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdfMichel Bruley
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Amélie Marian
 
UX Days 2019 by Flupa - Conférence : Emmanuelle Marévéry
UX Days 2019 by Flupa - Conférence : Emmanuelle MarévéryUX Days 2019 by Flupa - Conférence : Emmanuelle Marévéry
UX Days 2019 by Flupa - Conférence : Emmanuelle MarévéryFlupa
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Intelligence artificielle et e-commerce
Intelligence artificielle et e-commerceIntelligence artificielle et e-commerce
Intelligence artificielle et e-commerceHenri ISAAC
 
4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdfAzedineSariye
 
MesInfos : la révolution des données personnelles partagées
MesInfos : la révolution des données personnelles partagéesMesInfos : la révolution des données personnelles partagées
MesInfos : la révolution des données personnelles partagéesFing
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 

Ähnlich wie Cours fouille de donn+®es part1 (20)

Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdf
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
UX Days 2019 by Flupa - Conférence : Emmanuelle Marévéry
UX Days 2019 by Flupa - Conférence : Emmanuelle MarévéryUX Days 2019 by Flupa - Conférence : Emmanuelle Marévéry
UX Days 2019 by Flupa - Conférence : Emmanuelle Marévéry
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Intelligence artificielle et e-commerce
Intelligence artificielle et e-commerceIntelligence artificielle et e-commerce
Intelligence artificielle et e-commerce
 
4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf
 
MesInfos : la révolution des données personnelles partagées
MesInfos : la révolution des données personnelles partagéesMesInfos : la révolution des données personnelles partagées
MesInfos : la révolution des données personnelles partagées
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 

Cours fouille de donn+®es part1

  • 1. 30/12/2011 Introduction à la fouilles de données Partie 1 1 Informatique décisionnelle Chargement périodique des données é é Pas de modifications des données Interrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels Exemples de questions: Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ? i d l' é d l é i Comment se comporte le produit X par rapport au produit Y? Quel type de client peut acheter le produit X? Exemple: OLAP (Codd) 2 1
  • 2. 30/12/2011 Exemples http://www.amazon.fr http://www amazon fr Le panier de la ménagère Connaissez-vous? 3 Questions Est ce Est-ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées? Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant? Est-ce que vous savez pourquoi les entreprises liées à la bourse sponsorisent les tournois de golfs télévisés? 4 2
  • 3. 30/12/2011 Plan et objectifs Comprendre ce qu’est la FDD? KDD Modèles Applications de la FDD pp ca o s a Recherche en FDD 5 Plan et objectifs Définition du Data Mining Pourquoi le Data Mining ? Description du processus KDD (Knowledge Data Discovery) Applications Tâches et Techniques du Data Mining 6 3
  • 4. 30/12/2011 Données et information Les entreprises produisent des quantités énormes de données Sources: affaires, science, géographie, environnement… Les données sont des ressources de valeur Besoin de techniques pour analyser les données et extraire d i f d é t t i des informations / ti connaissances automatiquement Données = faits Information = modèle / motif (pattern) dans les données 7 Fouille de données (FDD) Fouille / découverte de connaissances dans les données ou création d’un modèle des données Processus qui emploie des techniques d’apprentissage automatiques et intelligentes pour analyser et extraire des connaissances, de grandes quantités de données 98% de ce que les humains apprennent proviennent de reconnaissance des formes [Kurzwell] 8 4
  • 5. 30/12/2011 Pourquoi la FDD maintenant? Des machines plus puissantes Existence d’algorithmes de fouille de données Collections et sauvegardes des données améliorées Domaine à la confluence de différents domaines: base de données, statistiques, , q , intelligence artificielle, visualisation, parallélisme… Domaine pluridisciplinaire 9 KDD* Découverte de connaissances dans les données (KDD) Application de méthodes scientifiques à la fouille de données Le processus de KDD est composé de: Sélection des données Pré-traitement des données Transformation des données La fouille de données Interprétation et évaluation des modèles 10 5
  • 6. 30/12/2011 Systèmes pour la FDD* Composition: Bases de données, entrepôts de données… Serveurs de bases de données ou d’entrepôts de données Bases de connaissances Engins de fouille de données Modules d’évaluation du modèle Interfaces graphiques pour l’utilisateur 11 Apprendre Apprendre quelque chose de nouveau Faits (vrais ou faux) Concepts Ensembles de symboles, objets et évènements groupés parce qu’ils partagent les mêmes caractéristiques Procédures Cours d’actions réalisées é é é étape par é étape pour atteindre un but Principes Plus haut niveau d’abstraction Règles ou vérités qui sont les bases pour d’autres vérités 12 6
  • 7. 30/12/2011 Apprentissage supervisé Modèle inductif où l’apprenant considère un l apprenant ensemble d’exemples, et infère l’appartenance d’un objet à une classe en considérant les similarités entre l’objet et les éléments de la classe Les classes sont étiquetées préalablement (sports et loisirs art et culture ) loisirs, culture…) La plupart des algorithmes (classification, estimation, prédiction) utilisent l’apprentissage supervisé 13 Apprentissage non supervisé Construction d un modèle et découverte des d’un relations dans les données sans référence à d’autres données On ne dispose d'aucune autre information préalable que la description des exemples La segmentation, le regroupement (cluster) segmentation (cluster), la méthode des k-moyennes et les associations sont des méthodes d’apprentissage non supervisées 14 7
  • 8. 30/12/2011 Concepts / Modèles Les concepts sont les résultats de la fouille de données Ils montrent les relations dans les données ou groupent des éléments fondés sur leur ressemblance Structures: Arbres de décision Règles Réseaux de neurones Équations mathématiques… Parfois, pas de réelles structures Exemples / Instances Regroupements (clusters) 15 Exemples de modèles Vue classique: Si salaire annuel >= 30,000 et années de service >= 5 et propriétaire = vrai alors risque de défaut de paiement = faux Age(X, “jeune”) et Salaire(X,”élevé”) ⇒ Classe(X, A ) Classe(X,”A”) Vue probabilistique: La plupart des personnes qui ont un bon crédit sont propriétaires 16 8
  • 9. 30/12/2011 Exemples de modèles Vue exemplaire: Un exemple est déterminé comme une instance d’un concept Les exemples suivants sont considérés comme ayant un bon crédit: Salaire = 32,000, années = 6, propriétaire é é Salaire = 52,000, années = 16, locataire 17 Exemples de modèles Les exemples peuvent être présentés par des tables: Age Salaire Classe Total Jeune Elevé A 1402 Jeune Bas B 1038 Agé Elevé C 786 18 9
  • 10. 30/12/2011 Exemples de modèles Diagrammes: Histogramme Camembert Arbre d dé i i A b de décision Cube de données 19 Applications: Grande Distribution Vente par Définition de correspondance profils des clients Analyse du Prédiction des taux de réponses à des listes de panier de la diffusions ménagère g Optimisation des p réapprovisionnements Analyse des Propositions spécifiques données liées au de services à des paiement individus profilés (adresse, sexe…) Élimination des “mauvais” clients 20 10
  • 11. 30/12/2011 Application: Assurances Assurances Définition des profils des clients Analyse des données Élimination des personnelles (sexe, age, “mauvais” clients profession…) Analyse des données Tarification du sur les éléments à contrat assurer (type de voiture, Évaluation des puissance…) risques Analyse des sinistres Détection des fraudes 21 Application: Banques Banques Définition des profils des clients Analyse de la Élimination des situation bancaire “mauvais” clients (solde, produits Autorisation de bancaires …) crédits aux “bons” Analyse de données clients supplémentaires Propositions (sexe, profession, spécifiques de situation familiale…) services 22 11
  • 12. 30/12/2011 Application: Banques Banques Détection des évolutions de profils Analyse de la situation Détection de la lassitude bancaire (solde, produits d’un client (possibilité de bancaires possédés…) trouver de nouvelles Analyse des données propositions plus supplémentaires adaptées) (situation familiale, Détection de profession…) l’amélioration ou de la détérioration de la situation bancaire 23 Application: Banques Banques Détection de comportements particuliers Analyse de la situation Détection des bancaire (solde, produits bancaires possédés…) fraudes Analyse des données (utilisation supplémentaires anormale des (situation familiale, profession…) systèmes de paiement) 24 12
  • 13. 30/12/2011 Application: Bourse Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursières 25 Application: Production Industrielle Production Prédiction et industrielle détection Analyse du Optimisation de la fonctionnement de la production chaîne de production Adéquation au marché Analyse des produits Anticipation des défauts Analyse des ventes Diagnostics de pannes Di ti d Analyse de questionnaires (prospectifs, satisfaction…) 26 13
  • 14. 30/12/2011 Application: Internet Internet Détermination d’un thème, d’un sujet Analyse Aide à l’organisation automatique de des messages reçus sites toile Moteur de recherche évolué Analyse (design des automatique du systèmes) courrier Décision de électronique marketing Espionnage 27 Application: Sport Le système SCOUT d’IBM analyse les matches de baskets de la NBA pour faire gagner les Knicks de New York 28 14
  • 15. 30/12/2011 FDD: Sur quelles données? (1) Base de données relationnelles Base de données transactionnelles Base de données orientées objets Base de données relationnelles objets Base B d de d données t é temporellesll Exemple: Bourse 29 FDD: Sur quelles données? (2) Base de données spatiales Exemples: Images provenant de satellites, cartes géographiques Base de données hétérogènes Base de données “héréditaires” Entrepôts de données* p Base de données textuelles Les données sont décrites par des mots Exemples: La toile, le courrier électronique, les pages html/xml 30 15
  • 16. 30/12/2011 FDD: Sur quelles données? (3) Base de données multimédia Des techniques de recherche et de stockage avancées sont nécessaires La toile / Internet Besoins de techniques particulières à chaque type de données pour la fouille de données 31 On ne peut pas tout faire… et tout n’est pas de la FDD La FDD offre des outils et des méthodologies qui peuvent aider à comprendre les données et faire des prédictions Mais: Il n’y a pas de solution générale et complètement automatique Les t h i L techniques doivent être adaptées au problème d i t êt d té blè considéré La FDD doit être comprise La FDD ne remplace pas les experts, mais les assiste 32 16
  • 17. 30/12/2011 FDD: Vrai ou faux? Liste des produits vendus pendant le premier semestre 2011 par le supermarché «Carrefour» Total des ventes de produits de «Carrefour» en 2011 Les personnes qui achètent un ordinateur ac ète t parfois une p a te en ê e achètent pa o s u e imprimante e même temps Les personnes de moins de 25 ans répondent aux offres «A» avec une probabilité de 90% 33 Les fonctions de la FDD: Classification et Prédiction Classification et prédiction p Diviser / grouper les instances dans des classes spécifiques pour des prédictions futures Prédire des valeurs (classes) inconnues ou manquantes Exemples: Les clients loyaux / les clients non-loyaux Les transactions frauduleuses / les transactions générales Prédire les taux de réponses à une offre é é Algorithmes: Arbres de décision, règles de classification, classification Bayésienne, algorithmes génétiques, algorithme des k plus proches voisins, l’approche Rough Sets, régression linéaire et non linéaire 34 17
  • 18. 30/12/2011 Les fonctions de la FDD: Regroupement (Cluster) Regroupement d’éléments de proche en éé proche fondé sur leur ressemblance Les classes sont inconnues, et sont donc créées Exemple: Segmentation du marché Algorithmes: K-moyennes Réseaux neuronaux 35 Les fonctions de la FDD: Associations Mise en relation des données é Exemples: Le panier de la ménagère: Les personnes qui achètent des chips achètent aussi du coca-cola Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒ Achete(X,”PC”) A h (X ”PC”) [ support = 2%, confidence = 2% fid 60%] L’algorithme A Priori pour obtenir des règles d’association 36 18
  • 19. 30/12/2011 Les fonctions de la FDD: Caractérisation et Discrimination Caractérisation: Généralise l données d’une C té i ti Gé é li les d é d’ classe Exemple: Général profil des régions pluvieuses Discrimination: Compare les données d’une classe avec une ou plusieurs classes (de comparaison) Gestion des anomalies Exemple: Les ventes de logiciels qui ont augmenté de 10% par rapport à celles qui ont augmente de 30% 37 Logiciels Logiciels très sophistiqués Weka DBMiner XLMiner SQL Server S … 38 19
  • 20. 30/12/2011 Recherche en FDD (1) Méthodologies de FDD et interaction avec l’utilisateur: Découvrir différentes sortes de connaissances dans les données La FDD interactive Incorporation d’un ensemble de connaissances particulières Langage de FDD (tel que SQL, DMQL) Présentation et visualisation des résultats Traitement du bruit et des données incomplètes Évaluation du modèle 39 Recherche en FDD (2) Performance Efficacité et adaptabilité des algorithmes de FDD Algorithmes incrémentaux et parallèles Diversité des types de données yp Données relationnelles et données complexes Bases de données hétérogènes… 40 20
  • 21. 30/12/2011 Références J. Han, J Han and M Kamber Data Mining M. Kamber. Concepts and Techniques. Morgan Kaufmann Publishers, 2006. Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2006. 2006 41 21