RRITools - questions pratiques pour améliorer l'anticipation et la réflexivité
Thesis_Presentation
1. Étude comportementale des mesures
d’intérêt d’extraction de connaissances
Présentée par: Dhouha Grissa
dgrissa@isima.fr
Directeurs: Engelbert Mephu Nguifo & Sadok Ben Yahia
Co-encadrant: Sylvie Guillaume
02 Décembre, 2013
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 1 / 100
2. Positionnement
Les grandes étapes d’un processus ECD (Extraction de Connaissances
à partir des Données)
Émergence de données volumineuses.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 2 / 100
3. Positionnement
La fouille de données (FD)
Ses caractéristiques :
Une étape au coeur du processus d’ECD :
• analyser des données volumineuses.
• rechercher des connaissances valides, nouvelles et potentiellement
utiles (Fayyad et al., 1996).
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 3 / 100
4. Motivations
Objectifs de l’analyse des règles
Identifier des profils ou associations entre les items ou variables
binaires dans les bases de données transactionnelles, relationnelles,
ou dans les entrepôts de données.
S’intéresser aux règles valides.
Intérêt des mesures
Évaluer l’intérêt d’une règle d’association.
Aider l’utilisateur dans sa prise de décision.
Confirmer (ou infirmer) les hypothèses d’un expert.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 4 / 100
5. Motivations
Catégories de mesures
Deux catégories de mesures d’intérêt :
Mesures subjectives : dépendent des connaissances de l’utilisateur
sur le domaine.
Mesures objectives : dépendent des données.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 5 / 100
6. Motivations
Catégories de mesures
Deux catégories de mesures d’intérêt :
Mesures subjectives : dépendent des connaissances de l’utilisateur
sur le domaine.
Mesures objectives : dépendent des données.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 6 / 100
8. Plan de la Présentation
1 Introduction
2 Étude formelle
3 Étude empirique
4 Conclusion et Perspectives
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 8 / 100
9. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
I- Introduction
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 9 / 100
10. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Pertinence ou validité d’une règle
Définition
Étant donné : T la base transactionnelle, TX un ensemble de
transactions, I un ensemble d’items, tels que X ⊆ I, Y ⊆ I et
X ∩ Y = ∅.
Soit r : X ⇒ Y une règle d’association.
support(r) = support(X ∪ Y )
confiance(r) = support(X∪Y )
support(X)
Règles Valides
Support(X → Y ) minsup (fréquence)
Confiance(X → Y ) minconf (force)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 10 / 100
11. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Pertinence ou validité d’une règle
Approche support/confiance
Avantages :
Vertus algorithmiques accélératrices.
Interprétation facile.
Inconvénients :
Génération d’un nombre très élevé de règles.
Obtention de règles non pertinentes.
⇒ Ces mesures sont insuffisantes !
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 11 / 100
12. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Insuffisance des mesures
Génération d’un nombre très élevé de règles
Obtention de règles non pertinentes
Étape supplémentaire pour analyser les règles extraites
Utilisation et proposition d’autres mesures objectives ;
Identification d’une soixantaine de mesures.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 12 / 100
13. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Quelques mesures d’intérêt
Extrait de 61 mesures d’intérêt
Nom Formule
Cohen ou Kappa 2 P(XY )−P(X)P(Y )
P(X)P(Y )+P(X)P(Y )
Confiance Causale 1 − 1
2
1
P(X) + 1
P(Y ) P(XY )
Facteur Bayésien P(XY )P(Y )
P(XY )P(Y )
Intensité d Implication P Poisson(nP(X)P(Y )) ≥ P(XY )
Loevinger 1 − P(XY )
P(X)P(Y )
Conviction P(X)P(Y )
P(XY )
Pearl P(X)|P(XY )
P(X) − P(Y )|
− − − − − − − − − −−
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 13 / 100
14. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contexte
Problème
Problème de choix de mesures d’intérêt.
Solutions
Études formelles
Études empiriques
Objectifs
Aider l’utilisateur dans le choix de mesures d’intérêt.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 14 / 100
15. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contexte
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 15 / 100
16. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Introduction :
État de l’art
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 16 / 100
17. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
État de l’art
Étude des
mesures d’intérêt
Étude
empirique
Étude formelle
Deux axes de recherche :
1. Étude formelle ;
2. Étude empirique.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 17 / 100
18. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
État de l’art
Travaux # mesures # propriétés # jeux Méthodes d’analyse
Tan et al,
2002
21 8 6 Évaluation des mesures
+ Ordonnancement
Heravi et
Zaiane, 2010
53 11 20 Évaluation des mesures
Hunyh et al,
2006
36 5 2 Évaluation des mesures
+ Classification des
mesures
B. Vaillant,
2006
20 9 10 Évaluation des mesures
+ Classification des
mesures (CAH)
Lallich et
Teytaud,
2004
15 13 — Classification des me-
sures selon des critères
Blanchard et
al, 2004
19 4 — Classification des me-
sures selon des critères
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 18 / 100
19. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
État de l’art
Travaux # mesures # propriétés # jeux Méthodes d’analyse
Geng et Ha-
milton, 2007
38 11 – Évaluation des mesures
Y. Le Bras,
2011
42 6 — Classification des me-
sures selon des critères
Hunyh et al,
2006
36 5 2 Classification des
mesures (ordonnance-
ment, corrélation)
Heravi et
Zaiane, 2010
53 11 20 Recherche de la
meilleure mesure
Carvalho et
al, 2005
11 — 8 Recherche de la
meilleure mesure
(Ordonnancement)
Hébert et
Crémilleux,
2007
17 3 1 Proposition d’un envi-
ronnement unificateur
des mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 19 / 100
20. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Limites de l’existant
Nombre limité de mesures ;
Étude formelle :
Nombre restreint de propriétés ;
Classification selon un nombre restreint de critères ;
Méthodes de classification non variées.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 20 / 100
21. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Limites de l’existant
Étude empirique :
Petits jeux de données ;
Nombre réduit de jeux de données ;
⇒ problème de robustesse et de validité des résultats.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 21 / 100
22. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contributions
D’un point de vue formel :
Étude d’un nombre plus important de mesures d’intérêt ;
Étude de l’ensemble des propriétés ;
Formalisation des propriétés ;
Classification des mesures :
• méthodes sans recouvrement : CAH et k-moyennes ;
• méthodes avec recouvrement : méthode d’analyse factorielle des
données binaires (AFB).
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 22 / 100
23. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contributions
D’un point de vue empirique :
Validation des résultats de la classification formelle ;
Étude d’un nombre plus important de mesures d’intérêt ;
Variation de la taille et la nature des jeux de données ;
Classification des mesures :
• calcul de la matrice de similarité entre les mesures.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 23 / 100
24. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
II- Étude formelle
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 24 / 100
25. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les propriétés des mesures
22 propriétés dégagées dans la littérature.
Formalisation de l’ensemble de ces propriétés.
2 propriétés jugées subjectives :
a. Compréhensibilité de la mesure ;
b. Facilité à fixer un seuil.
1 propriété nécessite des moyens de calculs performants :
c. Robustesse de la mesure.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 25 / 100
26. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les propriétés des mesures
22 propriétés dégagées de la littérature.
Formalisation de l’ensemble de ces propriétés.
2 propriétés jugées subjectives :
a. Compréhensibilité de la mesure ;
b. Facilité à fixer un seuil.
1 propriété nécessite des moyens de calculs performants :
c. Robustesse de la mesure.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 26 / 100
27. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les propriétés des mesures
22 propriétés dégagées de la littérature.
3 propriétés n’ont pas été étudiées.
19 propriétés de mesures
sont alors retenues !
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 27 / 100
28. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 28 / 100
29. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 28 / 100
30. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Non symétrie
∃X → Y /m(X → Y) = m(Y → X)
∀X → Y m(X → Y) = m(Y → X)
Oui : 1
Non : 0
Exemple
∀X → Y Support(X → Y ) = Support(Y → X) Non : 0
∃X → Y / Confiance(X → Y ) = Confiance(Y → X) Oui : 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 29 / 100
31. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 30 / 100
32. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Valeurs fixes pour différents niveaux d’implication
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 31 / 100
33. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 32 / 100
34. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Évolution des mesures en fonction de
paramètres
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 33 / 100
35. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 34 / 100
36. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Relations entre règles positives et négatives
∀X → Y m(X → Y) = −m(X → Y)
Oui : 1
Non : 0
Exemple
∃X → Y Support(X → Y ) = −Support(X → Y ) Non : 0
∀X → Y Pavillon(X → Y ) = −Pavillon(X → Y ) Oui : 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 35 / 100
37. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 36 / 100
38. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Discriminante en présence de données
volumineuses
Mesures restituant des valeurs distinctes pour des niveaux
d’implication différents
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 37 / 100
39. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
=⇒ Évaluation des propriétés sur les mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 38 / 100
40. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Matrice Mesures-propriétés
Étude de 61 mesures d’intérêt × 19 propriétés
⇓
Construction de la matrice
(Extrait)
Mes/Prop P3 P4 P6 P7 P8 P9 P14 P18 P20 P21
Cohen 0 1 1 1 1 1 1 1 0 1
Confiance 1 1 1 0 0 0 1 0 0 1
FB 1 1 1 1 1 1 0 0 0 1
II 1 1 1 1 1 1 2 0 1 0
Jaccard 0 1 1 0 1 0 0 0 0 1
MGK 1 1 1 1 0 1 1 0 0 1
Pearl 0 0 0 0 0 1 1 1 0 1
Y de Yule 0 1 1 1 0 1 0 1 0 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 39 / 100
41. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’évaluation de mesures
Mesures non symétriques (P3)
Mes/Prop P3 P4 P6 P7 P8 P9 P14 P18 P20 P21
Cohen 0 1 1 1 1 1 1 1 0 1
Confiance 1 1 1 0 0 0 1 0 0 1
FB 1 1 1 1 1 1 0 0 0 1
II 1 1 1 1 1 1 2 0 1 0
Jaccard 0 1 1 0 1 0 0 0 0 1
MGK 1 1 1 1 0 1 1 0 0 1
Pearl 0 0 0 0 0 1 1 1 0 1
Y de Yule 0 1 1 1 0 1 0 1 0 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 40 / 100
42. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Publications
S. Guillaume and D. Grissa and E. Mephu Nguifo (2010). Propriétés
des mesures d’intérêt pour l’extraction des règles
Dans Actes de l’atelier QDC de la conférence EGC, pages 15–28,
Hammamet, Tunisie.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 41 / 100
43. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Différentes méthodes sont utilisées pour la catégorisation des
mesures :
1 Méthodes sans recouvrement : une méthode hiérarchique CAH et
une méthode de partitionnement, des k-moyennes ;
2 Méthode avec recouvrement : la méthode d’analyse factorielle
booléenne.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 42 / 100
44. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Simplification de la matrice :
1 Recherche de mesures aux comportements identiques :
valeurs identiques pour les 19 propriétés ;
⇒ 7 groupes de mesures ;
⇒ 52 mesures d’intérêt.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 43 / 100
45. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Simplification de la matrice d’évaluation des mesures selon les
propriétés :
1 Recherche de mesures aux comportements identiques.
2 Recherche de propriétés redondantes :
valeurs identiques pour les 52 mesures ;
aucune propriété redondante.
⇒ 19 propriétés.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 44 / 100
46. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Simplification de la matrice d’évaluation des mesures selon les
propriétés :
1 Recherche de mesures aux comportements identiques.
2 Recherche de propriétés redondantes :
matrice
52 mesures × 19 propriétés
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 45 / 100
47. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
1 Méthodes sans recouvrement : une méthode
hiérarchique CAH et une méthode de partitionnement, des
k-moyennes ;
2 Méthode avec recouvrement : la méthode d’analyse factorielle booléenne.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 46 / 100
48. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthodes sans recouvrement
Deux méthodes de classification non supervisées sans recouvrement
sont appliquées :
1. Une méthode de classification ascendante hiérarchique
distance euclidienne entre paires de mesures
distance de Ward pour la phase d’agrégation
⇒ 8 groupes de mesures
2. Une méthode des k-moyennes
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 47 / 100
49. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthodes sans recouvrement
Deux méthodes de classification non supervisée sans recouvrement
sont appliquées :
1. Une méthode de la classification ascendante hiérarchique
2. Une méthode des k-moyennes
distance euclidienne
k = 8
10 itérations
⇒ Consensus (entre les 2 méthodes)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 48 / 100
50. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Consensus sur la classification
7 classes de
mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 49 / 100
51. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Consensus sur la classification
Divergence pour
12 mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 50 / 100
52. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Consensus sur la classification
Classes fortes
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 51 / 100
53. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Étude des classes disjointes
Interprétation des différentes classes :
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique ;
b. Étape b : étudier le comportement des mesures selon les propriétés
formelles ;
c. Étape c : appliquer une classification ascendante hiérarchique.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 52 / 100
54. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique entre les mesures.
Exemple : Classe 7 (10 mesures d’intérêt)
• Gain Informationnel = log2(Intérêt)
• Support double sens = P(X) × Support sens unique
• Pavillon = P(Y ) × Facteur de certitude
• Klosgen = P(X) × pavillon
• Facteur bayésien = Conviction × Intérêt
• Facteur de certitude = (Risque relatif ×p(Y |X))−p(Y )
p(Y )
• Support double unique = P(XY )log2(Intérêt)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
55. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique entre les mesures :
• Gain Informationnel = log2(Intérêt)
• Support double sens = P(X) × Support sens unique
• Pavillon = P(Y ) × Facteur de certitude
• Klosgen = P(X) × pavillon
• Facteur bayésien = Conviction × Intérêt
• Facteur de certitude =
(Risque relatif ×p(Y |X))−p(Y )
p(Y )
• Support double sens = P(XY )log2(Intérêt)
⇒ Il n’existe pas de liaison entre toutes les mesures de C7
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
56. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
b. Étape b : étudier le comportement des mesures de la classe 7 selon
les propriétés formelles :
Vérification des 11 propriétés suivantes :
P4, P7, P9, P11, P12, P13, P16, P18, P19, P20 et P21.
Mesures de C7 :
• descriptives, discriminantes,
• croissent en fonction de l’ensemble des données,
• invariables à l’équilibre,
• permettent l’identification des zones d’attraction et de répulsion.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
57. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
b. Étape c : appliquer une méthode de CAH :
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
58. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
b. Étape c : appliquer une classification ascendante hiérarchique
Le sous-groupe {Support double sens (SSU), Klosgen (Klos),
Support sens unique (SDS)} :
• Support double sens = P(X) × Support sens unique ;
• Évaluation identique de toutes les propriétés, sauf P3 (non
symétrie) ;
• Support sens unique proche de Klosgen : 18 propriétés communes ;
• Confirmation par les valeurs des distances :
d(SSU, SDS) = d(SSU, Klos) = 1, 41.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
59. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Proposition de mesure(s) référente(s)
Interprétation des différentes classes :
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique ;
b. Étape b : étudier le comportement des mesures selon les propriétés
formelles ;
c. Étape c : appliquer une classification ascendante hiérarchique.
Proposition d’une ou plusieurs mesure(s) référente(s).
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
60. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Proposition de mesure(s) référente(s)
Proposition d’une ou plusieurs mesure(s) référente(s) :
• Consultation de la table de distance entre chaque mesure et le centre
de gravité ;
• Mesures les plus proches du centre sont les mesures référentes.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
61. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Proposition de mesure(s) référente(s)
Exemple : Mesure(s) référente(s) de la classe C7 :
Sous-groupe Mesures C7
Gc1
Facteur Certitude 4,18
Pavillon 2,98
Gc2
Facteur Bayésien 2,38
Conviction 1,98
Risque Relatif 0,78
Gc3
Gain Informationnel 2,58
Intérêt 2,18
Gc4
Support Double Sens 2,38
Support Sens Unique 1,58
Klosgen 3,18
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
62. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Différentes méthodes sont utilisées pour la catégorisation des mesures :
1 Méthodes sans recouvrement : une méthode hiérarchique CAH et une
méthode de partitionnement, des k-moyennes ;
2 Méthode avec recouvrement : la méthode d’analyse
factorielle booléenne.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 55 / 100
63. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthode avec recouvrement : AFB
Analyse Factorielle Booléenne (AFB) = décomposition de la matrice
de données binaires objet-attribut I en un produit booléen de la matrice
A objet-facteur et de la matrice B facteur-attribut.
Iij = (A ◦ B)ij =
k
max
l=1
min(Ail , Blj )
Ail = 1 . . . facteur l s’applique à l’objet i
Blj = 1 . . . attribut j est l’une des manifestations du facteur l
(A ◦ B)ij . . . “l’objet i possède un attribut j ssi il existe un facteur l tel
que l s’applique à i et j est l’une des manifestations de l”
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 56 / 100
64. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthode avec recouvrement : AFB
PROBLÈME : trouver le plus petit nombre k de facteurs !
1 1 0 0 0
1 1 0 0 1
1 1 1 1 0
1 0 0 0 1
=
k
1 0 0 1
1 0 1 0
1 1 0 0
0 0 1 0
◦
1 1 0 0 0
0 0 1 1 0
1 0 0 0 1
0 1 0 0 0
k
Les matrices A et B sont construites à partir de l’ensemble F de
concepts formels des données d’entrée I, appelés concepts factoriels.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 57 / 100
65. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
AFB : Processus de travail
Méthodologie
Extension de la matrice originale :
• 61 × 19 (originale) ;
• 61 × 21 (binarisation d’une propriété) ;
L’ajout pour chaque propriété de sa négation :
• 61 × 42 (nouvelle) ;
⇒ Obtention de 38 facteurs, dénotés F1,.....F38.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 58 / 100
66. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Interprétation des résultats
Obtention de 38 facteurs :
21 premiers facteurs couvrent 94% de la matrice d’entrée
mesure-propriété.
dix premiers couvrent 73%.
cinq premiers couvrent 52.4%.
Couverture cumulative de la matrice
d’entrée
cumulativecover(%)
number of factors
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38
0
10
20
30
40
50
60
70
80
90
100
dix premiers couvrent toutes les mesures.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 59 / 100
67. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Diagramme de Venn des Facteurs Booléens
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 60 / 100
68. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Interprétation
Interprétation des 10 premiers facteurs :
Une forte similarité avec les 7 autres classes de mesures.
Des groupes de mesures significatifs qui se recouvrent.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 61 / 100
69. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Publications
Dans une revue internationale :
• R. Belohlavek, D. Grissa, S. Guillaume, E. Mephu Nguifo and J.
Outrata (2013). Boolean factors as a means of clustering of
interestingness measures of association rules.
Dans AMAI Journal, volume 67, Springer Netherlands.
Dans CLA’2011, pages 207–222.
Dans une revue nationale :
• S. Guillaume and D. Grissa and E. Mephu Nguifo (2011).
Catégorisation des mesures d’intérêt pour l’extraction des
connaissances.
Dans Revue des Nouvelles Technologies de l’Information, RNTI.
pages 117–144.
Dans EGC’2011, pages 551–562.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 62 / 100
70. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
III- Étude empirique
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 63 / 100
71. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Objectifs
Étude empirique : validation des 7 groupes de mesures
Regrouper les mesures ayant un comportement semblable :
Toutes les mesures d’une même classe devraient sélectionner les
mêmes N meilleures règles pour différentes bases de données.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 64 / 100
72. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Environnement de travail
Utilisation de la plateforme expérimentale Weka
Introduction de mesures d’intérêt
Application de l’algorithme Apriori
Analyse de 2 types de jeux de données
NomBase Type T :# Tran I :# Item L :Moy.Tran
Réelle
CONNECT Dense 67557 129 74
PUMSB Dense 49046 7117 43
CHESS Dense 3196 75 37
IPUMS ? 88443 1889 60
Synthétique
T135L23I60 éparse 135 60 23
T100L10I40 éparse 100 40 10
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 65 / 100
73. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type
des degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement
similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 66 / 100
74. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 66 / 100
75. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 1 : Extraction des N meilleures règles
Extraction des N meilleures règles :
Variation du nombre N de règles extraites : 10, 50, 100, 200 et 400
Obtention d’un ensemble de règles ordonnées avec la mesure mi
pour la base Bk
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 67 / 100
76. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de
similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 68 / 100
77. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Calcul du taux de ressemblance entre les mesures mi et mj pour la
base Bk :
τij Bk
=
| Eik ∩ Ejk |
N
(1)
où Eik ∩ Ejk est l’ensemble de règles sélectionnées avec les mesures mi et
mj .
⇒ Obtention de 6 matrices de taux similarité
(6 jeux de données)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 69 / 100
78. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Cas d’une base réelle : Chess
Mesures N=10 N=50 N=100 N=200 N=400
Ganascia & Confiance 10 50 98 184 366
Ganascia & Pearl 0 0 0 0 0
Ganascia & Laplace 10 50 100 200 400
Confiance & Pearl 0 0 0 0 0
Confiance & Laplace 10 50 98 184 366
Pearl & Laplace 0 0 0 0 0
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 70 / 100
79. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Cas d’une base réelle : Chess
Mesures N=10 N=50 N=100 N=200 N=400
Ganascia & Confiance 10 50 98 184 366
Ganascia & Pearl 0 0 0 0 0
Ganascia & Laplace 10 50 100 200 400
Confiance & Pearl 0 0 0 0 0
Confiance & Laplace 10 50 98 184 366
Pearl & Laplace 0 0 0 0 0
⇒ Forte similarité entre Ganascia et Laplace
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 71 / 100
80. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Cas d’une base réelle : Chess
Mesures N=10 N=50 N=100 N=200 N=400
Ganascia & Confiance 10 50 98 184 366
Ganascia & Pearl 0 0 0 0 0
Ganascia & Laplace 10 50 100 200 400
Confiance & Pearl 0 0 0 0 0
Confiance & Laplace 10 50 98 184 366
Pearl & Laplace 0 0 0 0 0
⇒ Forte dissimilarité entre Ganascia et Pearl
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 72 / 100
81. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre
les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 73 / 100
82. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 3 : Calcul d’un degré de similarité
Calcul du degré de similarité IS pour chaque couple de mesures (mi ,
mj ) :
IS (mi , mj ) =
p
k=1 τij Bk
p
p est le nombre de bases de données étudiées.
Obtention d’une nouvelle matrice
de similarité
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 74 / 100
83. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 3 : Calcul d’un degré de similarité
Extrait de la matrice de similarité
Mesures ipums chess pumsb connect T135 T100 Moy
Ganascia & Confiance 0,32 0,98 0,00 0,90 0,27 1,00 0,57
Ganascia & Pearl 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ganascia & Laplace 1,00 1,00 1,00 1,00 1,00 1,00 1,00
Confiance & Pearl 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Confiance & Laplace 0,32 0,98 0,00 0,90 0,27 1,00 0,57
Pearl & Laplace 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 75 / 100
84. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le
calcul de l’écart-type des degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 76 / 100
85. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Calcul de l’écart-type σ des degrés de similarité IS pour chaque
couple de mesures (mi , mj ) :
σ(mi , mj ) =
p
k=1 τij Bk
−IS (mi ,mj )
2
p
p est le nombre de bases de données étudiées.
Catégorisation des mesures
grâce à IS et σ
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 77 / 100
86. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
3 catégories de mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
similaire
IS (mi , mj ) ≥ 1 − ε1 σ(mi , mj ) ≤ ε2
mesures au comportement
différent
IS (mi , mj ) ≤ ε1 σ(mi , mj ) ≤ ε2
mesures au comportement
indéterminé
— σ(mi , mj ) ≥ 1 − ε2
Avec : 1 − ε1 = 0, 95, ε2 = 0, 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 78 / 100
87. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
similaire
IS (mi , mj ) ≥ 0, 95 σ(mi , mj ) ≤ 0, 1
1. mesures au comportement identique : lorsque IS est proche de 1 et
σ est faible ;
Mesure Conviction Fiabilité négative
– IS σ IS σ
Facteur bayésien 0,95 0,06 0,60 0,38
Loevinger 0,00 0,00 0,00 0,00
Confiance causale 0,58 0,37 1,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 79 / 100
88. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
différent
IS (mi , mj ) ≤ 0, 05 σ(mi , mj ) ≤ 0, 1
2. mesures au comportement différent : lorsque IS et σ ont des
faibles valeurs ;
Mesure Conviction Fiabilité négative
– IS σ IS σ
Facteur bayésien 0,95 0,06 0,60 0,38
Loevinger 0,00 0,00 0,00 0,00
Confiance causale 0,58 0,37 1,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 80 / 100
89. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
indéterminé
— σ(mi , mj ) ≥ 0, 9
3. mesures au comportement indéterminé, en fonction des bases
de données :
(a) en présence d’une faible valeur pour IS et une forte valeur pour σ ;
(b) en présence d’une forte valeur pour IS et σ.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 81 / 100
90. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
3. mesures au comportement indéterminé, en fonction des bases
de données :
(a) en présence d’une faible valeur pour IS et une forte valeur pour σ ;
(b) en présence d’une forte valeur pour IS et σ.
Mesure Conviction Fiabilité négative
– IS σ IS σ
Facteur bayésien 0,95 0,06 0,60 0,38
Loevinger 0,00 0,00 0,00 0,00
Confiance causale 0,58 0,37 1,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 82 / 100
91. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures
au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 83 / 100
92. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 5 : Visualisation
Obtention de 8 graphes connexes
Exemple :
Pea : Pearl
Nov : Nouveauté
Lev : Leverage
PS : Piatetsky-shapiro
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 84 / 100
93. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 85 / 100
94. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
La démarche suivie pour l’interprétation des résultats :
Étape a : Recherche de relations mathématiques entre les mesures ;
Étape b : Validation de la classification grâce à des études
similaires ;
Étape c : Vérification de l’ordonnancement similaire des règles par
les mesures d’un même groupe.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 86 / 100
95. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Étape a : Recherche de relations mathématiques entre les mesures
Justifier le regroupement par des liens de proportionnalité :
Exemple : groupe Gst5 = {Jaccard, Kulczynski, Czekanowski}
Kulczynski = Jaccard
1−Jaccard
Jaccard = Czekanowski
2−Czekanowski
Aucune relation intéressante n’est détectée =⇒ passer à l’étape b.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 87 / 100
96. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Étape b : Validation de la classification grâce à des études
similaires
Confrontation de la classification avec des travaux de la littérature
Exemple : groupe Gst5 = {Jaccard, Kulczynski, Czekanowski}
Validation par la classification formelle,
Validation par les travaux de Y. Le Bras 2011.
Non validation des résultats =⇒ passer à l’étape c.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 88 / 100
97. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Étape c : Vérification de l’ordonnancement similaire des règles par
les mesures d’un même groupe
Vérification de la relation d’ordre entre les mesures (m1, m2) d’un
même groupe :
∀X → Y , ∀V → W Si m1(X → Y ) ≤ m1(V → W )
alors m2(X → Y ) ≤ m2(V → W )
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 89 / 100
98. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 90 / 100
99. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Exemple de mesures de Gst2
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 91 / 100
100. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Confrontation des résultats
Confrontation
formel &
empirique
⇒ Validation
étude
formelle.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 92 / 100
101. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Publications
D. Grissa (2013). Étude comportementale de mesures d’intérêt de
règles d’association.
Dans 11èmes
Rencontres des Jeunes Chercheurs en Intelligence
Artificielle, RJCIA’13, Lille-France.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 93 / 100
103. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Objectif : aider l’utilisateur dans le choix de mesures
Étude formelle :
Soixantaine de mesures,
Vingtaine de propriétés formelles ;
Formalisation des propriétés de mesures ;
Étude des mesures selon les propriétés.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 95 / 100
104. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Classification des mesures d’intérêt :
1 CAH et k-moyennes
⇒ 7 classes de mesures disjointes
2 AFB
⇒ 8 classes de mesures recouvrantes
Interprétation des classes de mesures.
Proposition de mesures représentatives.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 96 / 100
105. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Étude empirique :
Étude des mesures selon des jeux de données de nature différente.
Identification de 3 catégories de mesures :
1 Les mesures au comportement similaire ;
⇒ 8 groupes de mesures stables.
Interprétation des groupes de mesures stables.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 97 / 100
106. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Étude comparative avec les autres travaux :
• Travail de Vaillant : à la fois accord/désaccord ;
• Travail de Huynh et al : une grande similarité ;
• Travail de Heravi et Zaiane : à la fois accord/désaccord ;
Travaux # me-
sures
#
jeux
#
groupes
Techniques utilisées
Tew et al.
2013
61 110 21 Ordonnancement des règles,
calcul de la corrélation, CAH
Jiménez et
al. 2013
12 1 —- Ordonnancement de
groupes règles, matrice
de similarité
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 98 / 100
107. Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Perspectives
Envisager des propriétés complémentaires pour l’étude du
comportement des mesures ;
Étudier l’ordonnancement des règles ;
Identification de caractéristiques pertinentes d’un ensemble de
données : indiquer la mesure d’intérêt la mieux appropriée ;
Agrégation de mesures ;
Projection sur d’autres types de motifs.
Réalisation d’un cadre applicatif réel.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 99 / 100