Le MOOC (cours en ligne ouvert et massif) est un type récent de formation à distance d’un cours accessible à tous en ligne et sans restrictions quant au nombre de participants (Educause, 2013). L’évaluation des apprentissages en ligne est parmi les plus importantes préoccupations dans ce type de formation. En effet, même les MOOCs de plus petite envergure rendent l'évaluation traditionnelle laborieuse. Pour ceux accueillant plus de 150 000 participants pour un seul cours (Gee, 2012) la question de l'évaluation des apprentissages demande, sans contredit, des ajustements. En effet, des méthodes d’évaluation inadéquates pourraient porter préjudice à la valeur des MOOCs et aux certifications délivrées. Cette conférence exposera donc une revue de littérature portant sur les outils d’évaluations utilisés dans les MOOCs. Afin de mener à terme cette synthèse de recherche, des bases de données importantes d’articles scientifiques en éducation ont été consultées. Parmi les résultats principaux, on observe que l’évaluation par les pairs est une méthode d’évaluation appréciée par les concepteurs de MOOCs. De plus, lorsque cette méthode est utilisée, les étudiants évaluent leurs pairs en leur attribuant une note supérieure à ce que le personnel de l’établissement d’enseignement attribue habituellement (Kulkarni, et al., 2013). À la suite de cette synthèse de recherche, on peut affirmer que plus d’études se doivent d’être entreprises afin d’étudier et de raffiner les méthodes d’évaluation les plus adaptées lorsque l’on offre des formations à des milliers, voire des centaines de milliers d’étudiants.
Quelle valeur pour les MOOCs. Une synthèse de la validité des outils d'évaluation
1. Quelle valeur pour les
MOOCs?
Une synthese de la validité des outils d'evaluatioǹ ́
Stéphane Villeneuve, Ph.D.
Université du Québec à Montréal
Professeur
Chercheur associé au CRIFPE
Twitter: @Prof_UQAM_TIC
ADMEE, Liège (Belgique), 27 au 30 janvier 2015
2. Ce document est sous Licence Creative Commons
Cette œuvre de Stéphane Villeneuve (villeneuve.stephane.2@uqam.ca) est mise à
disposition selon les termes de la Licence Creative Commons Attribution - Pas
d’Utilisation Commerciale - Pas de Modification 2.5 Canada. (CC BY-NC-ND)
Détails de la licence:
http://creativecommons.org/licenses/by-nc-nd/2.5/ca/deed.fr
3. MOOC
MOOC: Massive Open Online Course
CLOM: Cours en ligne offert aux masses
CLOM: Cours en ligne ouvert et massif
CLOT: Cours en ligne ouverts à tous
FLOT: Formation en ligne ouverte à tous
Existent depuis 2008, mais forte présence en 2012
(Sandeen, 2013)
16. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
Quiz (choix multiples, réponses courtes)
• Facile à créer et à corriger
• Bon portrait du niveau de connaissance d’un
sujet, mais pas au niveau des compétences de
haut niveau.
• Bien pour maintenir le rythme de l’étudiant
• Pour s’assurer de la compréhension du sujet
17. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
Quiz sont moins pertinents lorsque l’on
veut évaluer des…
• compétences de second niveau
(logique, résolution de problèmes)
• textes longs (profondeur d’une
réflexion personnelle)
• travaux pratiques (créativité, qualité)
18. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET (Évaluation automatisée de textes ou Automated
Essay Scoring AES)
•Historique
•But: prédire l’évaluation qui serait donnée par un
humain
•Donne une rétroaction sur la mécanique de l’écriture
•Bien pour un cours de langue, mais discutable pour
d’autres disciplines.
19. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET (Évaluation automatisée de textes)
• 3 marques commerciales dominent le
marché
• E-rater (Educational Testing Service)
• Intellimetric (Vantage Learning)
• Intelligent Essay Assessor (Pearson Knowledge
Technologies)
20. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET (Évaluation automatisée de textes)
• Variables utilisées ?
• longueur et nombre des mots
• longueur des éléments du discours
• proportion des erreurs grammaticales
• vocabulaire, mots moins communs
• organisation et style
21. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET (Évaluation automatisée de textes)
• Les évaluations automatisées sont
plus corrélées à celle des humains
qu’entre les humains = plus
constantes (Shermis et al., 2010)
22. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET
• Ne permet pas d’évaluer
• les nouvelles métaphores
complexes
• l’humour
• les patois, le langage régional
(Graesser et McNamera, 2012)
23. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET
• Le National Council of Teachers of English se
positionne (NCTE, 2013) contre les AET:
• restriction quant au type de texte qui peuvent
y avoir recours
• la plupart des rétroactions sont trop vagues
• possibilité de “trafiquer le système” au lieu
de travailler son style et le contenu
24. ÉVALUATION AUTOMATISÉE
PAR LOGICIEL
AET
• Des études suggèrent que l’évaluation
par les pairs dans les MOOC est plus
utile pour les étudiants selon le type de
travail demandé que les AET (Heise, Palmer-
Judson et Su, 2002; Likkel, 2012)
26. ÉVALUATION PAR LES
PAIRS
Basée sur l’évaluation d’autres travaux
exposant les étudiants à d’autres solutions et
stratégies que celles vues dans en cours
(Chinn, 2005; Tinapple et al., 2013)
27. ÉVALUATION PAR LES
PAIRS
FONCTIONNEMENT GÉNÉRAL DES EPP
•Protocole d’évaluation en double-aveugle (les
identités ne sont pas révélées)
•Pénalité pour les évaluations tardives
•Attribution aléatoire
•1 évaluation balisée (faux travail) + 4 de pairs
•Note = moyenne des résultats
30. ÉVALUATION PAR LES
PAIRS
Détestée par d’autres:
• « I hated the peer assessments as in some
cases, their anonymity gave the peers an
excuse to say mean-spirited things. »
(Suen, 2014, p. 319)
31. ÉVALUATION PAR LES
PAIRS
Les MOOCs avec évaluation
par les pairs ont un plus
faible niveau de complétion
(Jordan, 2013)
32.
33. Étude de Kulkarni
Contexte de la recherche
Sujet
•Cours sur l’interaction homme-machine (HCI)
Contenu
•Présence d’exposés magistraux (vidéo) (n = 4 / sem.)
Évaluations:
•Courts quiz
•Devoir hebdomadaire
Nombre de participants
•~35 000
34. ÉVALUATION PAR LES
PAIRS
20% des étudiants ont effectué
plus d’évaluations que requis (5)
(Kulkarni et al., 2013)
35. ÉVALUATION PAR LES
PAIRS
Comment améliorer les évaluateurs?
En donnant une rétroaction sur
l’évaluation balisée pour indiquer si
elle était plus haute ou plus basse que
l’évaluation d’un expert.
37. ÉVALUATION PAR LES
PAIRS
Même si les noms étaient cachés, les
participants ont donné en moyenne 3,6% de
plus à leurs compatriotes (Kulkarni et al.,
2013)
Codes culturels
Contexte géographique des exemples
Différences d’attentes et standards
39. ÉVALUATION PAR LES
PAIRS
Utiliser l’EPP à plusieurs reprises
dans un même MOOC pour
augmenter la justesse des
évaluations
Les étudiants deviennent de meilleurs
évaluateurs avec le temps
41. ÉVALUATION PAR LES
PAIRS
• Problèmes liés à l’EPP
• Crédibilité: évaluation de novices faite par des
novices (Suen, 2014)
• Même les étudiants ne font pas confiance aux
résultats (Furman et Robinson, 2003)
• Erreurs d’évaluation: que faire si tous les
évaluateurs d’un examen sont mauvais?
42. ÉVALUATION PAR LES
PAIRS
• 6 types d’écarts (Suen, 2014)
a) Entre l’évaluation d’un pair et d’un expert
b) Fluctuations situationnelles de l’évaluation par un pair
d’un même travail sous des conditions différentes
c) Incohérence de résultats entre des travaux similaires
d) Entre des pairs sur le même travail
e) Écarts systématiques entre des pairs à cause de
différences de compétence ou de rigueur
f) Fluctuations situationnelles de l’évaluation d’un expert
d’un même travail sous des conditions différentes
44. AUTO-ÉVALUATION
• Basée sur l’importance du développement
d’habiletés métacognitives (Veenman, Van
Hout-Wolters et Affleerbach, 2006)
• Plus d’apprentissage comparé à l’évaluation
de pairs (Sadler et Good, 2006)
(Wilkowski, Russel et Deutsch, 2014)
47. AUTO-ÉVALUATION
13% se sont donnés tous les
points, mais ont plagié ou soumis
un travail bidon
Repérage nécessaire
48. AUTO-ÉVALUATION
• Importance de bien former les étudiants à s’auto-
évaluer
• Les laisser s’auto-évaluer seulement quand ils
ont réussi à donner la même note qu’un expert
sur un exercice
• Importance d’une grille claire et simple afin d’être
bien comprise par les étudiants
50. VALIDATION
3 formes de tricherie (Meyer et Zhu, 2013)
• Donner, prendre ou recevoir de l’information
• Communiquer par cellulaire avec un ami pour de
l’aide
• Faire le test en équipe avec un autre étudiant
51. VALIDATION
• Utiliser du matériel interdit
• Chercher les réponses sur Internet avec
son appareil intelligent pendant un
examen sur ordinateur
• Obtenir l’examen/les réponses à l’avance
52. VALIDATION
• « Jouer le système »
Faire faire le test par quelqu’un
d’autre
Faire le test plus d’une fois
53. VALIDATION
• Besoin de mesures pour réduire les
possibilités de tricher en ligne
• Le “proctoring” – évaluation surveillée
• Méthode physique
• Méthodes électroniques
55. VALIDATION
Méthodes électroniques
• Diminuer les risques de tricherie en:
• Filmant l’étudiant pendant qu’il effectue le test
• Balayant la salle pour repérer s’il y a des
personnes ou des outils pour tricher
• Captant le pattern du doigté sur le clavier
durant l’écriture
• Vérifiant la structure des phrases et le
vocabulaire utilisé d’un travail à l’autre
…d’où un questionnement normal sur « Comment évaluer les apprentissages de tous ces participants » ?
https://www.flickr.com/photos/mmoorr/7750345792/
6 minutes
AES: (voir BALFOUR + discuter de la validité)
Donc….(voir diapo suivante)
Existe depuis 1973 (Shermis et al., 2010)
E-RATER
content analysis based on vocabulary measures
lexical complexity/diction
proportion of grammar errors
proportion of usage errors
proportion of mechanics errors
proportion of style comments
organization and development scores
features rewarding idiomatic phraseology
VANTAGE LEARNING
http://www.vantagelearning.com/products/intellimetric/
Accuracy, consistency, and reliability greater than human expert scoring
Web-based tools that are accessible anytime, anywhere
Scoring of both short-answer and extended response questions
Holistic and analytic scoring and feedback
Scoring capability in more than 20 different languages
Detection of non-legitimate essays, such as those that are:
Off-topic
Off-task
Lack proper development
Are written in a language other than what was expected
Contain bad syntax
Copy the question
Are inappropriate
Contain messages of harm
- See more at: http://www.vantagelearning.com/products/intellimetric/#sthash.CNp1vPjp.dpuf
PEARSON
Q: What is the Intelligent Essay AssessorTM?
A: The Intelligent Essay Assessor (IEA) is a powerful internet-based service that has been proven to score written essays as accurately as trained human scorers. IEA scores essays based on content as well as on more mechanical aspects of writing, such as grammar and spelling.
human-centered interaction (HCI)
In all, 2,673 students submitted assignments in the first iteration (Spring 2012), and 3,203 in the second (Fall 2012)
1,000 samples of five assessments per submission avec méthode de Bootstrap
4 à 10 membres du personnel ont évalué au hasard les EPP. Pour les 2 itérations, le personnel ont évalué 99 travaux standardisés. Chaque étudiant à évalué au moins 1 travail standard (un travail standard correspond à 160 évaluations pour établir une note moyenne)
To establish a ground-truth comparison of self and staff grades, each assignment in- cluded 4 to 10 staff-graded submissions in the peer assessment pool (these were ran- domly selected). Across both iterations, staff graded 99 ground-truth submissions. Each student graded at least one ground-truth submission per assignment; a ground-truth assignment had a median of 160 assessments. (Some
19 minutes
Si la matière est mal expliquée, communiquée, l’erreur d’interprétation peut se traduire dans les évaluations.
Self-evaluation in Advanced Power Searching and Mapping with Google MOOCs
« The course authors define complex as problems that require multiple steps, have more than one correct answer, or have multiple ways to achieve the answer »
Students submitted a total of 3,948 assignments.
Out of the 3,853 assignments where students graded themselves, 2,708 (70.3%) awarded themselves full credit. 267 (9.9%) of the full credit submissions were blank or nonsense (e.g. ffwevrew)
METHODS
After the course closed, course administrators provided researchers with an anonymized sample of assignment submissions. 13 of the course staff (including instructors, teaching assistants, content experts and instructional designers) graded 17% of the scored, accessible assignments. To ensure consistent interrater correlation before grading the sample set, graders trained together, independently evaluating assignments until they reached a point of being able to replicate the grading score across all of the graders. (It took five sample practice assignment-grading sessions to train to this level of consistency.)