SlideShare ist ein Scribd-Unternehmen logo
1 von 52
>  Automated Variable Weighting    in k-Means Type Clustering   ( Huang, J.Z.; Ng, M.K.; Hongqiang Rong; Zichen Li. ; 2005 )  Présentation 28 Septembre 2010 [email_address]
Sommaire ,[object Object],[object Object],[object Object],[object Object],[object Object]
1. La classification   ,[object Object]
1. La classification  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Sommaire ,[object Object],[object Object],[object Object],[object Object],[object Object]
2. La méthode des K-moyennes K-moyennes (K-means) Une méthode non supervisée MacQueen, 1967 2)  k  groupes sont créés en associant chaque individu au centre le plus proche.   1)  k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres.  4) Les étapes 2 et 3 sont répétées aussi longtemps que les centres ne sont pas stabilisés  Stabilisation des centres et fin
2. La méthode des K-moyennes ,[object Object],[object Object],[object Object],[object Object],[object Object]
2. La méthode des K-moyennes ,[object Object],[object Object],[object Object],[object Object],[object Object]
2. La méthode des K-moyennes ,[object Object],x 1  et x 2 x 1  et x 3 x 2  et x 3 Classification obtenue
Sommaire ,[object Object],[object Object],[object Object],[object Object],[object Object]
3. K-moyennes avec pondération des poids dynamique ,[object Object],[object Object],Idée  : Pondérer chaque variable afin de pouvoir donner un poids plus faible aux variables affectées par un bruit important. Existant : Modha et Spangler y ont déjà pensé… mais les poids qu’ils utilisaient étaient calculés au tout début de l’algorithme. Ici, les poids vont être calculer dynamiquement, à chaque itérations de l’algorithme des K-moyennes.
3. K-moyennes avec pondération des poids dynamique 2)  k  groupes sont créés en associant chaque individu au centre le plus proche.   1)  k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres.  5) Les étapes 2, 3 et 4 sont répétées aussi longtemps que les centres ne sont pas stabilisés  Stabilisation des centres et fin 4) Calcul des poids
3. K-moyennes avec pondération des poids dynamique ,[object Object],avec Où u i,l  signifie que l’objet i est affecté à la classe l d(x i,j  , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j  telles que D j   ≠  0 z l,j  est la valeur de la variable j du centroïde du cluster l
3. K-moyennes avec pondération des poids dynamique ,[object Object],avec Où u i,l  signifie que l’objet i est affecté à la classe l d(x i,j  , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j  telles que D j   ≠  0 z l,j  est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
3. K-moyennes avec pondération des poids dynamique ,[object Object],Fonction à minimiser :  Contrainte :    Multiplicateurs de Lagrange !
3. K-moyennes avec pondération des poids dynamique ,[object Object],Le Lagrangien :  On dérive :
3. K-moyennes avec pondération des poids dynamique ,[object Object],On voit : D’où : CQFD ! De plus :
3. K-moyennes avec pondération des poids dynamique ,[object Object],avec Où u i,l  signifie que l’objet i est affecté à la classe l d(x i,j  , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j  telles que D j   ≠  0 z l,j  est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
Sommaire ,[object Object],[object Object],[object Object],[object Object],[object Object]
4. Expériences ,[object Object],5 Variables, 300 individus : X 1 , X 2 , X 3  : Données formant 3 classes nettes X 4 , X 5   : Bruit Comme nous connaissons les 3 classes, nous allons  comparer  les résultats obtenus par l’algorithme des K-moyennes standard avec l’algorithme des K-moyennes avec pondération des poids dynamique. Pour effectuer cette comparaison, nous utiliserons l’ indice de Rand  et le  clustering accuracy  qui permettent d’évaluer la performance d’une classification par comparaison avec la classification voulue.
4. Expériences Indice de Rand : Clustering accuracy : ,[object Object],[object Object]
4. Expériences Indice de Rand : Clustering accuracy : ,[object Object],[object Object],Erratum
4. Expériences X 1 , X 2 , X 3  : Données formant 3 classes nettes
4. Expériences X 4 , X 5   : Bruit
4. Expériences Expérience : 1) Génération des données 2) Choix aléatoire des poids 3) Algorithme K-moyennes  classique 3) Algorithme K-moyennes classique 4) Recalcul des poids 5) Retour à étape 3.  Après 10 itérations, finir la boucle
4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération  des poids dynamique Résultats
4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération  des poids dynamique Résultats Problème commun :  La classification dépend des centroïdes et poids initiaux
4. Expériences Solution commune :  Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Les poids convergent de façon similaire :
4. Expériences Solution commune :  Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Résultats :
4. Expériences ,[object Object],Australian Credit Card data :  690 individus, 5 variables quantitatives, 8 variables qualitatives. Heart Diseases :  270 individus, 6 variables quantitatives, 9 variables qualitatives. ,[object Object],[object Object],[object Object],[object Object],[object Object]
4. Expériences Résultats Australian Credit Card data
4. Expériences Résultats Australian Credit Card data   +0.02 de prévision que les études précédentes !
4. Expériences Résultats Australian Credit Card data   +0.02 de prévision que les études précédentes ! Erratum : 0.85 est aussi atteint lorsque = 8
4. Expériences Résultats Heart Diseases
4. Expériences Résultats Heart Diseases +0.02 de prévision que les études précédentes !
4. Expériences Qu’en est-il des poids ?
4. Expériences Qu’en est-il des poids ?
4. Expériences Résultats en supprimant les variables au poids faible  Australian Credit Card data
4. Expériences Australian Credit Card data   +0.03 de prévision que les études précédentes ! Résultats en supprimant les variables au poids faible
4. Expériences Heart Diseases Résultats en supprimant les variables au poids faible
4. Expériences +0.01 de prévision que les études précédentes ! Heart Diseases Résultats en supprimant les variables au poids faible
4. Expériences Résultats +0.01 de prévision que les études précédentes ! Heart Diseases Erratum : Les résultats sont ici moins bons qu’avant la suppression des variables Résultats en supprimant les variables au poids faible
Sommaire ,[object Object],[object Object],[object Object],[object Object],[object Object]
5. Limites de l’étude 1) Le choix de  β  semble vraiment empirique. L’étude constate simplement que selon la valeur de  β , les résultats de la classification varient beaucoup, et que le meilleur résultat est meilleur que les résultats obtenus avec d’autres algorithmes des K-moyennes. Constatation, mais pas interprétation.
5. Limites de l’étude Heart Diseases Résultats en supprimant les variables au poids faible
5. Limites de l’étude ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
5. Limites de l’étude 2) Complexité de l’algorithme ? Exemple avec deux algorithmes de tri   bubble sort  est  О(n²),  n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de bubble sort pourrait être également être notée  O(t)  (car une itération est O(1)). quicksort sort  est  О(nlogn),  n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de quicksort pourrait être également être notée  O(t)  (car une itération est O(1)). Conclusion  : En utilisant un t indiquant le nombre d'itérations, cela rend les complexités incomparables entre elles. Même si cela permet d'évaluer la complexité d'une seule itération
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Quid des autres ?
5. Limites de l’étude Conclusion ,[object Object],[object Object],[object Object]
Questions ?

Weitere ähnliche Inhalte

Was ist angesagt?

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Espace vectoriel
Espace vectorielEspace vectoriel
Espace vectoriellexois1
 
Cours groupe
Cours groupeCours groupe
Cours groupebades12
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsSana Aroussi
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabouAchraf Manaa
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesSana Aroussi
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoiresBoris Guarisma
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 

Was ist angesagt? (13)

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
Espace vectoriel
Espace vectorielEspace vectoriel
Espace vectoriel
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Cours groupe
Cours groupeCours groupe
Cours groupe
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutons
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiques
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 

Andere mochten auch

Pourquoi en comment intégrer des graphiques dans mes présentations
Pourquoi en comment intégrer des graphiques dans mes présentationsPourquoi en comment intégrer des graphiques dans mes présentations
Pourquoi en comment intégrer des graphiques dans mes présentationsFormation 3.0
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Alternative Methods for Qualifying EEE Parts for CubeSats
Alternative Methods for Qualifying EEE Parts for CubeSatsAlternative Methods for Qualifying EEE Parts for CubeSats
Alternative Methods for Qualifying EEE Parts for CubeSatsCraig Hillman
 
K means Clustering
K means ClusteringK means Clustering
K means ClusteringEdureka!
 
K mean-clustering algorithm
K mean-clustering algorithmK mean-clustering algorithm
K mean-clustering algorithmparry prabhu
 
proceso de la evaluación
proceso de la evaluación proceso de la evaluación
proceso de la evaluación Karla Grohmann
 
Open Source et Agilité
Open Source et AgilitéOpen Source et Agilité
Open Source et AgilitéChristophe NEY
 
A VENDRE PROPRIETE FORET DE COMPIEGNE
A VENDRE PROPRIETE FORET DE COMPIEGNEA VENDRE PROPRIETE FORET DE COMPIEGNE
A VENDRE PROPRIETE FORET DE COMPIEGNEMarc Foujols
 
Beaujolaisnouveau
BeaujolaisnouveauBeaujolaisnouveau
Beaujolaisnouveaucatavrio
 
1 lederniermot
1 lederniermot1 lederniermot
1 lederniermotcatavrio
 
Saint Sigismond l'année 2014 en images. Vœux 2015
Saint Sigismond l'année 2014 en images. Vœux 2015Saint Sigismond l'année 2014 en images. Vœux 2015
Saint Sigismond l'année 2014 en images. Vœux 2015brunochaumontet
 
Le test du_chat
Le test du_chatLe test du_chat
Le test du_chatcatavrio
 
Services marchands diapo
Services marchands diapoServices marchands diapo
Services marchands diapoNicolas Geiger
 
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...regiosuisse
 

Andere mochten auch (20)

Pourquoi en comment intégrer des graphiques dans mes présentations
Pourquoi en comment intégrer des graphiques dans mes présentationsPourquoi en comment intégrer des graphiques dans mes présentations
Pourquoi en comment intégrer des graphiques dans mes présentations
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Alternative Methods for Qualifying EEE Parts for CubeSats
Alternative Methods for Qualifying EEE Parts for CubeSatsAlternative Methods for Qualifying EEE Parts for CubeSats
Alternative Methods for Qualifying EEE Parts for CubeSats
 
K means Clustering
K means ClusteringK means Clustering
K means Clustering
 
K mean-clustering algorithm
K mean-clustering algorithmK mean-clustering algorithm
K mean-clustering algorithm
 
K means Clustering Algorithm
K means Clustering AlgorithmK means Clustering Algorithm
K means Clustering Algorithm
 
Presentación1
Presentación1Presentación1
Presentación1
 
proceso de la evaluación
proceso de la evaluación proceso de la evaluación
proceso de la evaluación
 
Brochure anahita
Brochure anahitaBrochure anahita
Brochure anahita
 
Open Source et Agilité
Open Source et AgilitéOpen Source et Agilité
Open Source et Agilité
 
A VENDRE PROPRIETE FORET DE COMPIEGNE
A VENDRE PROPRIETE FORET DE COMPIEGNEA VENDRE PROPRIETE FORET DE COMPIEGNE
A VENDRE PROPRIETE FORET DE COMPIEGNE
 
Beaujolaisnouveau
BeaujolaisnouveauBeaujolaisnouveau
Beaujolaisnouveau
 
Illusion4
Illusion4Illusion4
Illusion4
 
1 lederniermot
1 lederniermot1 lederniermot
1 lederniermot
 
Letimbre
LetimbreLetimbre
Letimbre
 
Comeback
ComebackComeback
Comeback
 
Saint Sigismond l'année 2014 en images. Vœux 2015
Saint Sigismond l'année 2014 en images. Vœux 2015Saint Sigismond l'année 2014 en images. Vœux 2015
Saint Sigismond l'année 2014 en images. Vœux 2015
 
Le test du_chat
Le test du_chatLe test du_chat
Le test du_chat
 
Services marchands diapo
Services marchands diapoServices marchands diapo
Services marchands diapo
 
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
 

Ähnlich wie Presentation - Automated Variable Weighting in k-Means Type Clustering

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Metrologie termilnal
Metrologie termilnalMetrologie termilnal
Metrologie termilnalm.a bensaaoud
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite Saddem Chikh
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 

Ähnlich wie Presentation - Automated Variable Weighting in k-Means Type Clustering (20)

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Comparaison
ComparaisonComparaison
Comparaison
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Stat6 Chideux
Stat6   ChideuxStat6   Chideux
Stat6 Chideux
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
GIND5439_Chapitre6.pdf
GIND5439_Chapitre6.pdfGIND5439_Chapitre6.pdf
GIND5439_Chapitre6.pdf
 
Knn
KnnKnn
Knn
 
Metrologie termilnal
Metrologie termilnalMetrologie termilnal
Metrologie termilnal
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Chapitre 0.pdf
Chapitre 0.pdfChapitre 0.pdf
Chapitre 0.pdf
 

Presentation - Automated Variable Weighting in k-Means Type Clustering

  • 1. > Automated Variable Weighting in k-Means Type Clustering ( Huang, J.Z.; Ng, M.K.; Hongqiang Rong; Zichen Li. ; 2005 ) Présentation 28 Septembre 2010 [email_address]
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. 2. La méthode des K-moyennes K-moyennes (K-means) Une méthode non supervisée MacQueen, 1967 2) k  groupes sont créés en associant chaque individu au centre le plus proche. 1) k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres. 4) Les étapes 2 et 3 sont répétées aussi longtemps que les centres ne sont pas stabilisés Stabilisation des centres et fin
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12. 3. K-moyennes avec pondération des poids dynamique 2) k  groupes sont créés en associant chaque individu au centre le plus proche. 1) k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres. 5) Les étapes 2, 3 et 4 sont répétées aussi longtemps que les centres ne sont pas stabilisés Stabilisation des centres et fin 4) Calcul des poids
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23. 4. Expériences X 1 , X 2 , X 3 : Données formant 3 classes nettes
  • 24. 4. Expériences X 4 , X 5 : Bruit
  • 25. 4. Expériences Expérience : 1) Génération des données 2) Choix aléatoire des poids 3) Algorithme K-moyennes classique 3) Algorithme K-moyennes classique 4) Recalcul des poids 5) Retour à étape 3. Après 10 itérations, finir la boucle
  • 26. 4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération des poids dynamique Résultats
  • 27. 4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération des poids dynamique Résultats Problème commun : La classification dépend des centroïdes et poids initiaux
  • 28. 4. Expériences Solution commune : Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Les poids convergent de façon similaire :
  • 29. 4. Expériences Solution commune : Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Résultats :
  • 30.
  • 31. 4. Expériences Résultats Australian Credit Card data
  • 32. 4. Expériences Résultats Australian Credit Card data +0.02 de prévision que les études précédentes !
  • 33. 4. Expériences Résultats Australian Credit Card data +0.02 de prévision que les études précédentes ! Erratum : 0.85 est aussi atteint lorsque = 8
  • 34. 4. Expériences Résultats Heart Diseases
  • 35. 4. Expériences Résultats Heart Diseases +0.02 de prévision que les études précédentes !
  • 36. 4. Expériences Qu’en est-il des poids ?
  • 37. 4. Expériences Qu’en est-il des poids ?
  • 38. 4. Expériences Résultats en supprimant les variables au poids faible Australian Credit Card data
  • 39. 4. Expériences Australian Credit Card data +0.03 de prévision que les études précédentes ! Résultats en supprimant les variables au poids faible
  • 40. 4. Expériences Heart Diseases Résultats en supprimant les variables au poids faible
  • 41. 4. Expériences +0.01 de prévision que les études précédentes ! Heart Diseases Résultats en supprimant les variables au poids faible
  • 42. 4. Expériences Résultats +0.01 de prévision que les études précédentes ! Heart Diseases Erratum : Les résultats sont ici moins bons qu’avant la suppression des variables Résultats en supprimant les variables au poids faible
  • 43.
  • 44. 5. Limites de l’étude 1) Le choix de β semble vraiment empirique. L’étude constate simplement que selon la valeur de β , les résultats de la classification varient beaucoup, et que le meilleur résultat est meilleur que les résultats obtenus avec d’autres algorithmes des K-moyennes. Constatation, mais pas interprétation.
  • 45. 5. Limites de l’étude Heart Diseases Résultats en supprimant les variables au poids faible
  • 46.
  • 47. 5. Limites de l’étude 2) Complexité de l’algorithme ? Exemple avec deux algorithmes de tri bubble sort est О(n²), n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de bubble sort pourrait être également être notée O(t) (car une itération est O(1)). quicksort sort est О(nlogn), n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de quicksort pourrait être également être notée O(t) (car une itération est O(1)). Conclusion : En utilisant un t indiquant le nombre d'itérations, cela rend les complexités incomparables entre elles. Même si cela permet d'évaluer la complexité d'une seule itération
  • 48. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
  • 49. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
  • 50. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Quid des autres ?
  • 51.