Classer et catégoriser pour mieux appréhender les données en éducation
1. Classer et catégoriser pour mieux appréhender les données
en éducation :
Initiation à la démarche statistique de « Clustering » et applications dans le
logiciel SPSS
Gaëtan Temperman - Bruno De Lièvre
2. Exercice 1 : Vos représentations initiales
En quelques mots,
pouvez-vous définir la démarche par cluster ?
Classer et catégoriser pour mieux appréhender les données en éducationUMons
3. Objectifs de la formation
- Définir et caractériser la démarche de clustering
- Présenter des exemples mobilisant le clustering
- Décrire trois démarches de clustering
complémentaires
- S’initier aux fonctions de base de SPSS
- Mettre en oeuvre les démarches de Clustering
dans SPSS, dans Excel et dans Voyant-tools
Classer et catégoriser pour mieux appréhender les données en éducationUMons
4. Objectifs d’une démarche par clusters
Cette procédure statistique vise à trouver une structure intrinsèque
aux données en les organisant en groupes homogènes et distincts,
appelés « clusters ».
Pour former un « cluster », les éléments doivent être à la fois
similaires entre eux et différents des objets regroupés dans
d’autres « clusters » (Quintin, 2008)
Classer et catégoriser pour mieux appréhender les données en éducationUMons
5. Caractéristiques d’une démarche par clusters
- Pas de distinction entre variables dépendantes et
indépendantes
- Démarche statistique qui fait partie de la famille des
analyses multi-dimensionnelles (analyse en
composantes principales, analyse factorielle de
correspondances, analyse discriminante, …)
- Elle peut s'appuyer sur différents types de mesures
(binaire, nominal, ordinal, métrique).
Classer et catégoriser pour mieux appréhender les données en éducationUMons
6. Usages dans différentes disciplines
En médecine : identifier des patients qui ont des symptômes
similaires à partir d’observations et de caractéristiques
individuelles
En biologie : Elaborer des taxonomies avec des groupes et sous-
groupes dans la faune et dans la flore à partir d’observations
En éducation : créer des profils d’apprenants (d’enseignants)
homogènes à partir de ce qu’ils font ou de ce qu’ils disent
En marketing : Dresser des profils de consommateurs qui ont les
mêmes besoins et les mêmes comportements
Classer et catégoriser pour mieux appréhender les données en éducationUMons
7. Usages avec différents outils de prises d’informations
Classer et catégoriser pour mieux appréhender les données en éducationUMons
9. Boelaert & Khaneboubi (2015)
Exemple 1 : méthode de visualisation de traces d’activités sur la plateforme
open edX : le cas du Mooc « Enseigner et former avec le numérique »
Indicateurs Description
absent
l’utilisateur ne s’est jamais connecté aux ressources
correspondant à cette semaine
présent
l’utilisateur s’est connecté aux pages de la semaine, mais n’a
pas regardé de vidéos, ni répondu aux quiz
video
l’utilisateur a regardé au moins une vidéo de la semaine, mais
n’a pas répondu au quiz
view quiz
l’utilisateur a consulté le quiz de la semaine, mais n’y a pas
répondu
quiz
l’utilisateur a répondu à au moins une question du quiz de la
semaine.
Classer et catégoriser pour mieux appréhender les données en éducationUMons
10. Boelaert & Khaneboubi (2015)
Classer et catégoriser pour mieux appréhender les données en éducationUMons
11. Boelaert & Khaneboubi (2015)
Classer et catégoriser pour mieux appréhender les données en éducationUMons
13. Trois types de classification automatique
Procédures Caractéristiques
Nuées dynamiques
(K-Means)
La procédure d'analyse de cluster de nuées dynamiques est limitée
aux données continues et exige que vous indiquiez au préalable le
nombre de clusters
Classification
hiérarchique
La procédure d'analyse de cluster hiérarchique est limitée à des
fichiers de données plus réduits (centaines d’éléments à classer)
Possibilité de classer des observations ou des variables
Classification
Two-Step
Sélection automatique du meilleur nombre de clusters, en plus
des mesures de sélection parmi des modèles de cluster.
Possibilité de créer simultanément des modèles de cluster sur la
base de variables catégorielles et continues.
Classer et catégoriser pour mieux appréhender les données en éducationUMons
14. A la découverte de SPSSVariables
Individus
données
Classer et catégoriser pour mieux appréhender les données en éducationUMons
15. A la découverte de SPSS
Nom
de la
variable
Type de
mesures
Classer et catégoriser pour mieux appréhender les données en éducationUMons
16. A la découverte de SPSS
Classer et catégoriser pour mieux appréhender les données en éducationUMons
17. A la découverte de SPSS
Classer et catégoriser pour mieux appréhender les données en éducationUMons
18. A la découverte de SPSS
Classer et catégoriser pour mieux appréhender les données en éducationUMons
19. A la découverte de SPSS
Classer et catégoriser pour mieux appréhender les données en éducationUMons
20. A la découverte de SPSS
Classer et catégoriser pour mieux appréhender les données en éducationUMons
21. A la découverte de SPSS
Classer et catégoriser pour mieux appréhender les données en éducationUMons
23. Z-Scores
Si les variables ont différentes
échelles, il est important de les
standardiser en utilisant la note Z.
Nuées dynamiques
Classer et catégoriser pour mieux appréhender les données en éducationUMons
24. Note au cours de pédagogie
Note au cours de sciencesQuestionnaire de Desjardins
Stavaux, De Lièvre
& Temperman (à paraître)
Nuées dynamiquesExemple 2 : Formation au tbi
Classer et catégoriser pour mieux appréhender les données en éducationUMons
25. Nuées dynamiquesExemple 2 : Formation au tbi
Classer et catégoriser pour mieux appréhender les données en éducationUMons
Stavaux, De Lièvre & Temperman (à paraître)
26. 1.Ouvrir le fichier badges.sav dans spss
2.Calculer le nombre total de badges par
individus
4.Identifier une structure à ces données à
l’aide de la classification en tués dynamiques en
intégrant les variables transformées en note Z
3.Transformer les 4 variables en note Z
Exercice 2 : Expérience badges
Classer et catégoriser pour mieux appréhender les données en éducationUMons
Palm, De Lièvre
& Temperman (à paraître)
27. Classer et catégoriser pour mieux appréhender les données en éducation
Exercice 2 : Expérience badges
5. Créer le radar suivant dans
Excel en copiant les centres
de classe finaux
depuis SPSS
UMons
6. Catégoriser et interpréter
les trois profils (1, 2 et 3) mis
en évidence par le graphique
28. Exercice 2 : Expérience badges
6. Se connecter sur voyant-tools.org
7. Charger les 3 fichiers dans le dossier texte
8. Créer le graphique ci-dessous avec la commande « Scatterplot »
Classer et catégoriser pour mieux appréhender les données en éducationUMons
29. Dendrogramme représentant le regroupement des tuteurs selon leur expérience pédagogique
(Quintin, 2008)
Classification hiérarchiqueExemple 3 : Profils des tuteurs
Classer et catégoriser pour mieux appréhender les données en éducationUMons
2. Fusion et réduction de classes par itérations successives
3. Fusion des classes dont la dissimilarité (= indice d’agrégation) est faible
4. L’indice d’agrégation augmente au fur et à mesure des différentes itérations
indice d’agrégation
1. Au départ, chaque individu = une classe
30. Exemple 3 : Profils des tuteurs
Classer et catégoriser pour mieux appréhender les données en éducationUMons
(Quintin, 2008)
Nouvelle variable indépendante
31. Exercice 3 : « Réalité augmentée »
Classer et catégoriser pour mieux appréhender les données en éducationUMons
Prompts
Montagne, De Lièvre & Temperman (à paraître)
32. Exercice 3 : « Réalité augmentée »
1.Ouvrir le fichier realite.sav
dans spss
2. Sélectionner les individus
dans la condition 2
4.Créer un dendrogramme
identique à celui-ci
3. Générer un classement
hiérarchique
à l’aide de trois variables :
prétest/posttest/prompts
Classer et catégoriser pour mieux appréhender les données en éducationUMons
33. Novices IsolésSocio-nautes
- Usages timides
- Moodle +
- Médias sociaux avec prudence
- Progrès outils bureautiques
- Usage
chevronné
- Collaboration
- Progrès en
ligne
- Usages variés
- Moodle -
- Progrès en
communication
1
2
3 Entretiens
Clusters
Questionnaires
en ligne
N=1176
3 profils caractéristiques
N=12
Exemple 4 : le WEB 2.0 et les EPA Two step clusters
Classer et catégoriser pour mieux appréhender les données en éducationUMons
Van Herp, De Lièvre
& Temperman (à paraître)
34. Exercice 4 : Etude MTVL
1.Ouvrir le fichier mtvl.sav dans
spss
2. Sélectionner les individus
d o n t l e s ré p o n s e s s o n t
c o m p l è t e s ( v a r i a b l e
« complet »)
4.Intégrer l’ensemble des items
du questionnaire dans le
c h a m p « v a r i a b l e s
continues »
3. Lancer une procédure « Two
step clusters »
Classer et catégoriser pour mieux appréhender les données en éducationUMons
Witthier (2015)
35. Ce que nous pouvons retenir…
… complémentaire …
… pertinente …
… utilisable …
… utile …
Exercice 5 : La démarche par clusters est …
Classer et catégoriser pour mieux appréhender les données en éducationUMons
36. Ce que nous pouvons retenir…
… complémentaire à d’autres analyses quantitatives et/ou
qualitatives
… pertinente pour identifier de nouvelles variables indépendantes a
posteriori
… utilisable avec différentes sources d’informations (produits,
processus, perceptions, caractéristiques individuelles)
… utile pour synthétiser et pour visualiser des quantités importantes
de données
Classer et catégoriser pour mieux appréhender les données en éducationUMons
Exercice 5 : La démarche par clusters est …
37. Pour aller plus loin …
www.statisticssolutions.com/
cluster-analysis-2/
spss.espaceweb.usherbrooke.ca/
Classer et catégoriser pour mieux appréhender les données en éducationUMons
https://www.researchgate.net/publication/
260574030
Une typologie des professeurs entrants
De Stercke, Temperman & De Lièvre (2014)