« Evaluation par les pairs » : différence entre les versions
Ligne 59 : | Ligne 59 : | ||
Le corpus de textes sur lequel nous allons effectuer une analyse de ''text mining'' est tiré du cours BASES 2013-2014 (promotion tetris) donné au sein du master MALTT. Ce cours était encadré par un enseignant mais principalement géré par les étudiants eux-mêmes. Le rôle de l’enseignant était d’organiser le cours, de donner les consignes, d’être disponible pour d’éventuelles questions et d’évaluer les productions des étudiants de manière sommative, une fois le cours achevé. Le rôle des étudiants était de réaliser deux types de production – une carte conceptuelle et une vidéographie la présentant – sur un sujet choisi parmi certains articles dans le domaine de la psychologie et des sciences de l’éducation sur Edutech Wiki. En plus de cela, chaque étudiant devait commenter les productions de six collègues afin de les évaluer de manière formative en jugeant leur production et en leur proposant des pistes d’amélioration. Dans ce cas, l’évaluation par les pairs peut être rapprochée au [[socio-constructivisme]] dans le sens où les interactions qu’elle suscite permettent aux étudiants de co-construire le savoir par le discours. | Le corpus de textes sur lequel nous allons effectuer une analyse de ''text mining'' est tiré du cours BASES 2013-2014 (promotion tetris) donné au sein du master MALTT. Ce cours était encadré par un enseignant mais principalement géré par les étudiants eux-mêmes. Le rôle de l’enseignant était d’organiser le cours, de donner les consignes, d’être disponible pour d’éventuelles questions et d’évaluer les productions des étudiants de manière sommative, une fois le cours achevé. Le rôle des étudiants était de réaliser deux types de production – une carte conceptuelle et une vidéographie la présentant – sur un sujet choisi parmi certains articles dans le domaine de la psychologie et des sciences de l’éducation sur Edutech Wiki. En plus de cela, chaque étudiant devait commenter les productions de six collègues afin de les évaluer de manière formative en jugeant leur production et en leur proposant des pistes d’amélioration. Dans ce cas, l’évaluation par les pairs peut être rapprochée au [[socio-constructivisme]] dans le sens où les interactions qu’elle suscite permettent aux étudiants de co-construire le savoir par le discours. | ||
Il est donc intéressant de regarder et mettre en avant plusieurs indices dans les commentaires. Tout d'abord, les termes qui reviennent le plus fréquemment peuvent nous donner des informations sur le contenu même des commentaires. Ensuite, l'analyse des adjectifs utilisés dans les commentaires devrait permettre de mettre en avant | Il est donc intéressant de regarder et mettre en avant plusieurs indices dans les commentaires. Tout d'abord, les termes qui reviennent le plus fréquemment peuvent nous donner des informations sur le contenu même des commentaires. Ensuite, l'analyse des adjectifs utilisés dans les commentaires devrait permettre de mettre en avant certains critères de jugement utilisés par les étudiants. Finalement, l'analyse du nombre d'intervenants et de nombre de messages postés par intervenant permet de connaître les activités de chaque utilisateur et de sa place dans la possible construction d'un savoir. | ||
Les productions et les commentaires sont tous postés dans la page discussion correspondant à l'article Edutech Wiki du sujet traité. | Les productions et les commentaires sont tous postés dans la page discussion correspondant à l'article Edutech Wiki du sujet traité. | ||
Dans cette analyse, nous ne prendrons pas en compte toutes pages de discussion. Sur une trentaine de pages, nous en retenons quatre, choisies au hasard et qui ne concernent pas toujours les mêmes étudiants. Ces pages sont les suivantes: [[Discussion:Apprentissage multimédia]], [[Discussion:Développement moral et psychosocial]], [[Discussion:Flow]] et [[Discussion:Psychologie différentielle]]. Dans chaque page, les étudiants commentent les productions de deux de leurs pairs (soit quatre productions par page). Afin de garantir l'anonymat des étudiants concernés, nous avons décidé de remplacer leur nom par un nombre pouvant aller de 01 à 07 en fonction du nombre d'intervenants sur la page. Les deux étudiants chargés | Dans cette analyse, nous ne prendrons pas en compte toutes les pages de discussion. Sur une trentaine de pages, nous en retenons quatre, choisies au hasard et qui ne concernent pas toujours les mêmes étudiants. Ces pages sont les suivantes: [[Discussion:Apprentissage multimédia]], [[Discussion:Développement moral et psychosocial]], [[Discussion:Flow]] et [[Discussion:Psychologie différentielle]]. Dans chaque page, les étudiants commentent les productions de deux de leurs pairs (soit quatre productions par page). Afin de garantir l'anonymat des étudiants concernés, nous avons décidé de remplacer leur nom par un nombre pouvant aller de 01 à 07 en fonction du nombre d'intervenants sur la page. Les deux étudiants chargés de réaliser les productions sont toujours signalés par Utilisateur01 et Utilisateur02. | ||
==Extraction des données== | ==Extraction des données== | ||
Le corpus de texte retenu pour effectuer les analyses est issu de pages de discussion sur Edutech Wiki. Afin d'extraire et exporter les pages au format | Le corpus de texte retenu pour effectuer les analyses est issu de pages de discussion sur Edutech Wiki. Afin d'extraire et exporter les pages au format XML, il convient de suivre la démarche suivante: | ||
*Sur le bandeau situé à gauche | *Sur le bandeau situé à gauche dans les pages Edutech Wiki, sélectionner dans la partie concernant les outils, les "pages spéciales" | ||
[[Image:pages_speciales.png|800px|Exporter une page Edutech Wiki (1)]] | [[Image:pages_speciales.png|800px|Exporter une page Edutech Wiki (1)]] | ||
*Une fois dans les pages spéciales, descendre sous l'onglet "Outils pour les pages" et cliquer sur "Exporter des pages" | *Une fois dans les pages spéciales, descendre sous l'onglet "Outils pour les pages" et cliquer sur "Exporter des pages" | ||
*Ensuite, dans le plus grand champ de texte, écrire le nom de la page souhaitée et cocher les cases qui vous intéressent (exporter sans l'historique, inclure les modèles et/ou enregistrer dans un fichier), puis cliquer sur "exporter" pour enregistrer le fichier | *Ensuite, dans le plus grand champ de texte, écrire le nom de la page souhaitée et cocher les cases qui vous intéressent (exporter sans l'historique, inclure les modèles et/ou enregistrer dans un fichier), puis cliquer sur "exporter" pour enregistrer le fichier XML. | ||
==Questions== | ==Questions== | ||
Au cours de l'analyse, nous allons tenter de répondre aux questions suivantes: | |||
#Quel est le nombre d'intervenants sur une page? Combien de fois chaque étudiant intervient dans une page? | #Quel est le nombre d'intervenants sur une page? Combien de fois chaque étudiant intervient dans une page? | ||
#Quels sont les termes qui reviennent | #Quels sont les termes qui reviennent le plus souvent dans les messages des intervenants? | ||
#Quels sont les critères | #Quels sont les critères utilisés par les intervenants pour juger les productions? | ||
Pour les questions 1 et 2, nous analyserons les pages du corpus de manière indépendante alors que pour la question 3, nous analyserons uniquement | Pour les questions 1 et 2, nous analyserons les différentes pages du corpus de manière indépendante alors que pour la question 3, nous analyserons uniquement la totalité du corpus. | ||
En ce qui concerne la question 1, les intervenants n'étant pas les mêmes sur les différentes pages, il est impossible d'effectuer une analyse globale. Ensuite, chaque page traitant d'un sujet différent, il semble plus intéressant de les analyser séparément afin de répondre à la question 2. Finalement, la question 3, qui porte sur les critères utilisés par les étudiants concerne le corpus dans son ensemble. | En ce qui concerne la question 1, les intervenants n'étant pas les mêmes sur les différentes pages, il est impossible d'effectuer une analyse globale. Ensuite, chaque page traitant d'un sujet différent, il semble plus intéressant de les analyser séparément afin de répondre à la question 2. Finalement, la question 3, qui porte sur les critères utilisés par les étudiants concerne le corpus dans son ensemble. | ||
Ligne 87 : | Ligne 88 : | ||
La fonctionnalité "Words in the entire corpus" est présente, par défaut, en bas à gauche de la page. Pour une recherche plus rapide, on peut directement chercher le terme voulu dans la barre de recherche située un bas à gauche de la fenêtre dédiée à la fonctionnalité. Dans notre cas, nous avons cherché le mot « utilisateur » pour obtenir la liste de tous les intervenants de la page. | La fonctionnalité "Words in the entire corpus" est présente, par défaut, en bas à gauche de la page. Pour une recherche plus rapide, on peut directement chercher le terme voulu dans la barre de recherche située un bas à gauche de la fenêtre dédiée à la fonctionnalité. Dans notre cas, nous avons cherché le mot « utilisateur » pour obtenir la liste de tous les intervenants de la page. | ||
Pour connaître le nombre d’intervenants dans la page, il suffit de compter le nombre d’entrées. Dans notre cas, nous utilisons cette fonctionnalité puisque le nombre d’intervenants n’est pas conséquent. Cependant, dans le cas d’un nombre plus important d’utilisateurs, il faudrait utiliser un autre programme de text mining proposant plus de possibilités que Voyant Tools ([[R]], par exemple). | Pour connaître le nombre d’intervenants dans la page, il suffit de compter le nombre d’entrées. Dans notre cas, nous utilisons cette fonctionnalité puisque le nombre d’intervenants n’est pas conséquent. Cependant, dans le cas d’un nombre plus important d’utilisateurs, il faudrait utiliser un autre programme de ''text mining'' proposant plus de possibilités que Voyant Tools ([[R]], par exemple). | ||
En ce qui concerne le nombre d’interventions par intervenant, il faut regarder sous la colonne "count" qui indique le nombre de fois que chaque utilisateur apparaît dans le texte. | En ce qui concerne le nombre d’interventions par intervenant, il faut regarder sous la colonne "''count''" qui indique le nombre de fois que chaque utilisateur apparaît dans le texte. | ||
Nous regardons ces deux informations pour chaque page du corpus. | Nous regardons ces deux informations pour chaque page du corpus. | ||
'''1. Apprentissage multimédia''' | '''1. Apprentissage multimédia''' | ||
[[Image:user_appr_multimedia.png|frame|none|Apprentissage multimédia - Nombre intervenants]] | [[Image:user_appr_multimedia.png|frame|none|Apprentissage multimédia - Nombre intervenants]] | ||
Il apparaît que pour cette page cinq étudiants, deux producteurs et trois discutants, ont participé à la discussion. L'étudiant ayant le plus interagit dans la discussion est | Il apparaît que pour cette page cinq étudiants, deux producteurs et trois discutants, ont participé à la discussion. L'étudiant ayant le plus interagit dans la discussion est l'un des deux producteurs (utilisateur02), avec sept messages postés. Toutefois, le second producteur (utilisateur01) a beaucoup moins interagit que son collègue avec seulement trois messages postés. Les discutants ont contribué entre trois et quatre fois, ce qui semble démontrer une bonne implication. | ||
'''2. Développement moral et psychosocial''' | '''2. Développement moral et psychosocial''' | ||
Ligne 102 : | Ligne 103 : | ||
'''3. Flow''' | '''3. Flow''' | ||
[[Image:user_flow.png|frame|none|Flow - Nombre intervenants]] | [[Image:user_flow.png|frame|none|Flow - Nombre intervenants]] | ||
Nous pouvons constater que sept utilisateurs ont participé à la discussion - deux producteurs et cinq discutants - ce qui est supérieur aux | Nous pouvons constater que sept utilisateurs ont participé à la discussion - deux producteurs et cinq discutants - ce qui est supérieur aux trois autres pages. A nouveau, les deux étudiants les plus actifs sont les deux producteurs (utilisateur 01 et 02) avec respectivement quatre et cinq messages. Les discutants ont quant à eux posté entre un et trois messages. Il apparaît donc que les utilisateurs 04 et 06 n'ont pas suffisamment interagit à propos des productions. | ||
'''4. Psychologie différentielle''' | '''4. Psychologie différentielle''' | ||
[[Image:user_psycho_diff.png|frame|none|Psychologie différentielle- Nombre intervenants]] | [[Image:user_psycho_diff.png|frame|none|Psychologie différentielle- Nombre intervenants]] | ||
La discussion à propos de cette page à concerné cinq étudiants au total, deux producteurs et trois discutants. L'un des deux producteurs (utilisateur01) a posté le plus de messages (5). Le second producteur (utilisateur02) a quant à lui posté trois messages. Les discutants ont interagit quatre, trois | La discussion à propos des productions de cette page à concerné cinq étudiants au total, dont deux producteurs et trois discutants. L'un des deux producteurs (utilisateur01) a posté le plus de messages (5). Le second producteur (utilisateur02) a quant à lui posté trois messages. Les discutants ont interagit quatre, trois ou une fois. L'utilisateur04 n'a apparemment pas suffisamment participé à la discussion sur les productions de ses collègues. | ||
===Question 2 : termes qui reviennent le plus fréquemment=== | ===Question 2 : termes qui reviennent le plus fréquemment=== | ||
Afin de répondre à cette question, nous utilisons la fonctionnalité " | Afin de répondre à cette question, nous utilisons la fonctionnalité "Cirrus" de [[Voyant Tools]]. Celle-ci permet l’élaboration d’un nuage de mots, dans lequel plus le mot est utilisé fréquemment, plus il apparaît gros dans le nuage. L’avantage de cette fonctionnalité est de proposer une représentation très visuelle des occurrences. Toutefois, pour connaître plus en détail le nombre de fois exact que chaque terme apparaît dans le corpus, il est possible de regarder dans « Words in the entire corpus » que nous avons déjà utilisé pour répondre à la première question. | ||
Au démarrage de l’outil Voyant Tools, le nuage de mots se crée automatiquement en haut à gauche de la page. En laissant la configuration par défaut, il apparaît que les mots les plus fréquents sont des déterminants, des prépositions, etc. ce qui n’est pas réellement intéressant pour notre analyse. Afin de remédier à ce problème, il faut ajouter une « Stop Word List » qui va supprimer les mots indésirables. | Au démarrage de l’outil Voyant Tools, le nuage de mots se crée automatiquement en haut à gauche de la page. En laissant la configuration par défaut, il apparaît que les mots les plus fréquents sont des déterminants, des prépositions, etc. ce qui n’est pas réellement intéressant pour notre analyse. Afin de remédier à ce problème, il faut ajouter une « Stop Word List » qui va supprimer les mots indésirables. | ||
Pour ce faire, il faut commencer par cliquer sur l’onglet « options » dans la fenêtre de la fonctionnalité Cirrus. | Pour ce faire, il faut commencer par cliquer sur l’onglet « options » dans la fenêtre de la fonctionnalité "Cirrus". | ||
[[Image:vt_capture_options.png|frame|none|Activer une stop list sur Voyant Tools (1)]] | [[Image:vt_capture_options.png|frame|none|Activer une stop list sur Voyant Tools (1)]] | ||
Ligne 120 : | Ligne 121 : | ||
Il est également possible de modifier la liste proposée en ajoutant ou supprimant certains mots ou encore de créer entièrement | Il est également possible de modifier la liste proposée en ajoutant ou supprimant certains mots ou encore de créer entièrement sa propre stop list personalisée. Pour l'ensemble de notre corpus, nous avons choisi d'ajouter trois mots à la stop list : carte, conceptuelle et vidéographie. En effet, ces mots sont forcément beaucoup utilisés dans le corpus et risquent donc de masquer d’autres mots plus intéressants pour notre analyse. | ||
'''1. Apprentissage multimédia''' | '''1. Apprentissage multimédia''' | ||
Ligne 126 : | Ligne 127 : | ||
[[Image:nuage_appr_multimedia.png|Apprentissage multimédia - Nuage de mots|300px]] | [[Image:nuage_appr_multimedia.png|Apprentissage multimédia - Nuage de mots|300px]] | ||
Il apparaît dans ce nuage que les deux mots les plus fréquents sont "apprentissage" et "multimédia". Cette constatation semble logique étant donné qu'il s'agit du sujet traité dans la page. De plus, certains mots comme "processus", "concept" apparaissent comme étant également très présents. Ceci pourrait témoigner d'une réelle discussion entre les étudiants mais cette hypothèse doit être vérifiée par la lecture des passages dans lesquels ces mots | Il apparaît dans ce nuage que les deux mots les plus fréquents sont "apprentissage" et "multimédia". Cette constatation semble logique étant donné qu'il s'agit du sujet traité dans la page. De plus, certains mots comme "processus", "concept" apparaissent comme étant également très présents. Ceci pourrait témoigner d'une réelle discussion entre les étudiants mais cette hypothèse doit être vérifiée par la lecture des passages dans lesquels ces mots apparaissent. Par ailleurs, il intéressant de noter que, étant donné que nous avions laissé les dates des messages, le mot "avril" apparaît parmi les termes fréquents. Cela peut ainsi nous indiquer à quel moment les étudiants ont le plus échangé de messages. | ||
'''2. Développement moral et psychosocial''' | '''2. Développement moral et psychosocial''' | ||
Ligne 138 : | Ligne 139 : | ||
[[Image:nuage_flow.png|Flow - Nuage de mots|300px]] | [[Image:nuage_flow.png|Flow - Nuage de mots|300px]] | ||
Dans ce nuage, le mot qui apparaît le plus fréquemment est très nettement le concept du "flow", qui est le sujet traité dans les productions. Les termes qui semblent également fréquents sont: "conditions", "concept" et "caractéristiques". Ces mots peuvent être témoins d'une réelle construction, ou du moins, d'un partage et | Dans ce nuage, le mot qui apparaît le plus fréquemment est très nettement le concept du "flow", qui est le sujet traité dans les productions. Les termes qui semblent également fréquents sont: "conditions", "concept" et "caractéristiques". Ces mots peuvent être témoins d'une réelle construction, ou du moins, d'un partage et une négociation du savoir entre les étudiants. | ||
'''4. Psychologie différentielle''' | '''4. Psychologie différentielle''' | ||
Ligne 148 : | Ligne 149 : | ||
===Question 3 : critères de jugement utilisés par les intervenants=== | ===Question 3 : critères de jugement utilisés par les intervenants=== | ||
Afin de répondre à cette troisième question, il semble plus pertinent réaliser une seule analyse de la totalité du corpus plutôt que d’analyser chaque page de discussion de manière séparée. En effet, les critères de jugement peuvent être les mêmes quelque soit le sujet discuté ou les personnes qui les appliquent. | Afin de répondre à cette troisième question, il semble plus pertinent réaliser une seule analyse de la totalité du corpus plutôt que d’analyser chaque page de discussion de manière séparée. En effet, les critères de jugement des productions peuvent être les mêmes quelque soit le sujet discuté ou les personnes qui les appliquent. | ||
Dans le cadre de cette analyse, nous avons choisi d'utiliser les adjectifs qualificatifs comme indicateurs des critères de jugement. Effectivement, un adjectif qualitatif a pour rôle d'exprimer notamment une qualité de l'être ou de l'objet désigné par le nom auquel il est associé. | Dans le cadre de cette analyse, nous avons choisi d'utiliser les adjectifs qualificatifs comme indicateurs des critères de jugement. Effectivement, un adjectif qualitatif a pour rôle d'exprimer notamment une qualité de l'être ou de l'objet désigné par le nom auquel il est associé. | ||
Ligne 160 : | Ligne 161 : | ||
[[Image:tropes_adjectifs.png|400px|Liste des adjectifs - Tropes]] | [[Image:tropes_adjectifs.png|400px|Liste des adjectifs - Tropes]] | ||
Parmi cette liste, nous allons regarder plus précisément différents adjectifs qui se démarquent. Nous décidons de retenir les adjectifs peuvent être considérés comme des jugements de la qualité de l'objet, | Parmi cette liste, nous allons regarder plus précisément différents adjectifs qui se démarquent. Nous décidons de retenir les adjectifs qui peuvent être considérés comme des jugements de la qualité de l'objet, c'est à dire des productions. Ces adjectifs sont les suivants: "bon", "clair", "intéressant", "excellent", "lisible", "cohérent", "complet" et "synthétique". Cependant, il est très important de les re-situer dans leur contexte afin d'être sûr qu'ils constituent effectivement des critères de jugement. Nous allons donc les considérer un par un et regarder un extrait des différents contextes dans lesquels ils prennent place. Pour afficher le contexte dans Tropes, il suffit de cliquer sur l'adjectif voulu et la liste des phrases contenant le mot s'affiche dans une autre fenêtre. | ||
*bon | *bon | ||
Ligne 166 : | Ligne 167 : | ||
[[Image:adj_bon.png|Contexte adjectif - bon]] | [[Image:adj_bon.png|Contexte adjectif - bon]] | ||
Dans cet extrait, nous pouvons constater que l'adjectif "bon" peut effectivement être utilisé pour juger une production (lignes 2 et 3), mais également pour des salutations (lignes 1 et 4). Nous pouvons donc affirmer qu'il s'agit bien d'un jugement (une production est bonne ou non) mais qu'il faut se méfier du nombre indiqué des occurrences. | Dans cet extrait, nous pouvons constater que l'adjectif "bon" peut effectivement être utilisé pour juger une production (lignes 2 et 3), mais également pour des salutations (lignes 1 et 4). Nous pouvons donc affirmer qu'il s'agit bien d'un jugement (une production est bonne ou non) mais qu'il faut se méfier du nombre indiqué des occurrences puisque certaines d'entre elles ne constituent pas un jugement. | ||
*clair | *clair |
Version du 30 janvier 2015 à 00:09
Définition
L’évaluation par les pairs est une forme d'évaluation centrée sur l'apprenant. Il s'agit, comme son nom l’indique, d'une évaluation d’un étudiant réalisée par d’autres étudiants. Elle peut prendre la forme d’un feedback formatif ou d’une évaluation sommative. Plus précisément, Topping (1998) définit l’évaluation par les pairs (peer assessment) comme « an arrangement in which individuals consider the amount, level, value, worth, quality, or success of the products or outcomes of learning of peers of similar status » (p. 250).
Typologie
A partir d’une revue de la littérature, Topping (1996) a élaboré une typologie décrivant dix-sept critères correspondant aux caractéristiques propres à l’évaluation par les pairs dans un contexte d'éducation supérieure. Ces critères sont les suivants :
- Le domaine d’étude et le sujet d’étude : l’évaluation par les pairs peut se faire dans tous les domaines et sujets d’études.
- Les objectifs de l’utilisation de l’évaluation par les pairs : pour des questions de temps et d’argent ou pour ses valeurs cognitive et métacognitive.
- Le type d’évaluation : formative, sommative ou les deux.
- La production évaluée : performance à un test (score, note), textes écrits, présentations orales, travaux de groupes, etc.
- La relation avec l’évaluation du corps enseignant : supplémentaire ou de substitution.
- Le poids de l’évaluation : s’il y en a un, quelle est sa proportion dans l’évaluation globale.
- La direction de l’évaluation : unidirectionnelle, mutuelle ou réciproque.
- La confidentialité: anonyme, confidentiel ou public.
- Le contact des personnes impliquées : à distance ou en face-à-face.
- L’année d’étude : des étudiants de la même année d’études ou non.
- L’habilité des étudiants : identique ou certains sont considérés comme plus experts qui évaluent les moins experts.
- L’organisation des évaluateurs : individuelle, en paire ou en groupe.
- L’organisation des étudiants évalués : individuelle, en paire ou en groupe.
- Le lieu de l’évaluation : dans la salle de classe ou hors de la salle de classe.
- Le moment (temps) de l’évaluation : pendant le temps de classe, le temps libre ou de manière informelle.
- Le recrutement des évaluateurs : de manière volontaire ou obligatoire.
- La récompense : des crédits de cours, d’autres récompenses ou aucune.
Avantages
La méthode de l’évaluation par les pairs comporte un certain nombre d’avantages sur plusieurs niveaux tels que ceux listés ci-dessous.
Métacognitif
Tout comme pour l’auto-évaluation, l’évaluation par les pairs permet d’adopter un regard critique sur ses propres processus tant pour l’évaluateur que pour l’évalué. En premier lieu, l’évaluateur, pour réaliser l’évaluation d’un travail de l’un de ses pairs, développe ses capacités à se poser et formuler de bonnes questions (intelligentes et adaptées) à propos de l’ensemble et la forme du travail ainsi que sur des éléments précis et le fond du travail. L’évaluateur pourra donc utiliser cette capacité pour son propre travail en prenant l’initiative de s’auto-évaluer et ainsi de prendre la responsabilité de son propre apprentissage (Bostock, 2000). En second lieu, l’évalué, suite à son évaluation par l’un de ses pairs pourra, comme pour toute évaluation, se remettre en question, détecter les parties les plus importantes de son travail, etc. (Topping, 1998).
Social
Les interactions possibles entre l'évaluateur et l'évalué lors d'une évaluation par les pairs formative suscitent des échanges entre les étudiants à propos de l'objet de l'évaluation. Cette dimension sociale, que l'on peut rapprocher du socio-constructivisme permet aux étudiants de se joindre dans la construction d'un savoir par le discours.
Affectif
L’évaluation par les pairs permet également la présence d’échanges affectifs entre les différents acteurs (Sadler & Good, 2006) et engendre ainsi un travail d’équipe dans lequel la communication verbale ou écrite, la négociation et l’acceptation des critiques sont importantes (Topping, 1998).
Logistique
L’évaluation par les pairs est avantageuse pour des questions plus techniques comme un gain de temps pour le corps enseignant (Boud, 1989) ou l’obtention d’un feedback plus rapide pour les étudiants, puisqu’ils peuvent s’évaluer de manière simultanée (Sadler & Good, 2006).
Limites
Lors de l’utilisation de l’évaluation par les pairs, il faut faire attention à certaines limites qui peuvent gêner l’exercice. D’une part, la personne évaluée peut ne pas accepter les critiques formulées par ses pairs et d’autre part, l’évaluateur peut ne pas souhaiter endosser cette responsabilité, être inhibé ou contraint dans son évaluation (Topping, 1998).
De plus, la question de la validité et de la fiabilité des évaluations réalisées par des pairs se pose tant au niveau de leur valeur que de leur précision. Toutefois, il est possible de contrer cette limite par la création par le corps enseignant et/ou des étudiants de critères d’évaluation clairs et précis ainsi que par la mise en place d’une évaluation groupée (plusieurs personnes évaluent une même production) (Bostock, 2000).
De plus, dans le cas d’une évaluation sommative par les pairs, il y a de grands risques pour que les notes attribuées ne soient pas suffisamment précises et que les productions soient sur ou sous-évaluées.
Finalement, la question de l’anonymat de l’évaluation par les pairs se pose également tant pour les évaluateurs que pour les étudiants évalués. En effet, certaines caractéristiques et expériences personnelles des deux acteurs peuvent influencer l’évaluation que cela soit en bien ou en mal.
Text mining appliqué à des évaluations par les pairs
Problématique
L’évaluation par les pairs est une méthode d’évaluation couramment utilisée dans l’enseignement, et notamment dans l’enseignement supérieur. L’évaluation par les peut être utilisée par les enseignants pour ses avantages logistique et/ou pour ses avantages cognitifs et métacognitifs. Dans le premier cas, l’évaluation par les pairs permet un gain de temps pour un enseignant face à un grand nombre d’étudiant. On peut notamment retrouver cette configuration dans les MOOC (Massif Open Online Course) qui utilisent l’évaluation par les pairs en raison du nombre très élevé d’étudiants inscrits dans chaque cours. Dans le second cas, l’évaluation par les pairs a pour but le développement de connaissances et de compétences spécifiques des étudiants.
Lorsque l’évaluation par les pairs est utilisée pour des raisons logistiques ainsi que pour des raisons cognitives et métacognitives, l’enseignant ne peut pas toujours lire l’ensemble des évaluations et ne peut donc pas s’assurer que les apprentissages visés sont atteints. L’utilisation d’une analyse de type text mining permet donc à l’enseignant d’avoir une tendance globale du contenu de l’évaluation sans devoir lire tout le corpus. En plus de cela, cette technique permet à l’enseignant de repérer certains passages qu’il peut lire plus précisément.
En effet le text mining est une technique d’analyse automatique permettant une exploration statistique d’un corpus de textes de grand volume. Il permet de mettre en avant et de structurer un certain contenu, des thèmes, des informations importantes et des relations textuelles dans une approche d’analyse rapide. Grâce à cette technique, l’enseignant peut donc avoir un aperçu global de l’ensemble des évaluations rédigées par les étudiants sans perdre du temps à tout lire en détail.
Corpus
Le corpus de textes sur lequel nous allons effectuer une analyse de text mining est tiré du cours BASES 2013-2014 (promotion tetris) donné au sein du master MALTT. Ce cours était encadré par un enseignant mais principalement géré par les étudiants eux-mêmes. Le rôle de l’enseignant était d’organiser le cours, de donner les consignes, d’être disponible pour d’éventuelles questions et d’évaluer les productions des étudiants de manière sommative, une fois le cours achevé. Le rôle des étudiants était de réaliser deux types de production – une carte conceptuelle et une vidéographie la présentant – sur un sujet choisi parmi certains articles dans le domaine de la psychologie et des sciences de l’éducation sur Edutech Wiki. En plus de cela, chaque étudiant devait commenter les productions de six collègues afin de les évaluer de manière formative en jugeant leur production et en leur proposant des pistes d’amélioration. Dans ce cas, l’évaluation par les pairs peut être rapprochée au socio-constructivisme dans le sens où les interactions qu’elle suscite permettent aux étudiants de co-construire le savoir par le discours.
Il est donc intéressant de regarder et mettre en avant plusieurs indices dans les commentaires. Tout d'abord, les termes qui reviennent le plus fréquemment peuvent nous donner des informations sur le contenu même des commentaires. Ensuite, l'analyse des adjectifs utilisés dans les commentaires devrait permettre de mettre en avant certains critères de jugement utilisés par les étudiants. Finalement, l'analyse du nombre d'intervenants et de nombre de messages postés par intervenant permet de connaître les activités de chaque utilisateur et de sa place dans la possible construction d'un savoir.
Les productions et les commentaires sont tous postés dans la page discussion correspondant à l'article Edutech Wiki du sujet traité. Dans cette analyse, nous ne prendrons pas en compte toutes les pages de discussion. Sur une trentaine de pages, nous en retenons quatre, choisies au hasard et qui ne concernent pas toujours les mêmes étudiants. Ces pages sont les suivantes: Discussion:Apprentissage multimédia, Discussion:Développement moral et psychosocial, Discussion:Flow et Discussion:Psychologie différentielle. Dans chaque page, les étudiants commentent les productions de deux de leurs pairs (soit quatre productions par page). Afin de garantir l'anonymat des étudiants concernés, nous avons décidé de remplacer leur nom par un nombre pouvant aller de 01 à 07 en fonction du nombre d'intervenants sur la page. Les deux étudiants chargés de réaliser les productions sont toujours signalés par Utilisateur01 et Utilisateur02.
Extraction des données
Le corpus de texte retenu pour effectuer les analyses est issu de pages de discussion sur Edutech Wiki. Afin d'extraire et exporter les pages au format XML, il convient de suivre la démarche suivante:
- Sur le bandeau situé à gauche dans les pages Edutech Wiki, sélectionner dans la partie concernant les outils, les "pages spéciales"
- Une fois dans les pages spéciales, descendre sous l'onglet "Outils pour les pages" et cliquer sur "Exporter des pages"
- Ensuite, dans le plus grand champ de texte, écrire le nom de la page souhaitée et cocher les cases qui vous intéressent (exporter sans l'historique, inclure les modèles et/ou enregistrer dans un fichier), puis cliquer sur "exporter" pour enregistrer le fichier XML.
Questions
Au cours de l'analyse, nous allons tenter de répondre aux questions suivantes:
- Quel est le nombre d'intervenants sur une page? Combien de fois chaque étudiant intervient dans une page?
- Quels sont les termes qui reviennent le plus souvent dans les messages des intervenants?
- Quels sont les critères utilisés par les intervenants pour juger les productions?
Pour les questions 1 et 2, nous analyserons les différentes pages du corpus de manière indépendante alors que pour la question 3, nous analyserons uniquement la totalité du corpus. En ce qui concerne la question 1, les intervenants n'étant pas les mêmes sur les différentes pages, il est impossible d'effectuer une analyse globale. Ensuite, chaque page traitant d'un sujet différent, il semble plus intéressant de les analyser séparément afin de répondre à la question 2. Finalement, la question 3, qui porte sur les critères utilisés par les étudiants concerne le corpus dans son ensemble.
Analyses
Question 1 : nombre d'intervenants par page et nombre d'interventions par intervenant
Afin de connaître le nombre de participants et le nombre de fois que chaque participant est intervenu, nous utilisons l’outil en ligne Voyant Tools et notamment sa fonctionnalité "Words in the entire corpus". Cette fonctionnalité permet de mettre en avant la fréquence d'apparition d'un mot dans le corpus. Les résultats sont triés par fréquence décroissante. Nous pouvons donc mettre en avant le nombre de fois que chaque mot « utilisateur » suivi du numéro attribué à chacun des étudiants apparaît dans le corpus. En effet, dans notre corpus, chaque message est introduit par le nom de l’utilisateur et la date à laquelle le message a été posté. Ainsi, le nom d’utilisateur ne peut apparaître qu’une et une seule fois par message.
La fonctionnalité "Words in the entire corpus" est présente, par défaut, en bas à gauche de la page. Pour une recherche plus rapide, on peut directement chercher le terme voulu dans la barre de recherche située un bas à gauche de la fenêtre dédiée à la fonctionnalité. Dans notre cas, nous avons cherché le mot « utilisateur » pour obtenir la liste de tous les intervenants de la page.
Pour connaître le nombre d’intervenants dans la page, il suffit de compter le nombre d’entrées. Dans notre cas, nous utilisons cette fonctionnalité puisque le nombre d’intervenants n’est pas conséquent. Cependant, dans le cas d’un nombre plus important d’utilisateurs, il faudrait utiliser un autre programme de text mining proposant plus de possibilités que Voyant Tools (R, par exemple).
En ce qui concerne le nombre d’interventions par intervenant, il faut regarder sous la colonne "count" qui indique le nombre de fois que chaque utilisateur apparaît dans le texte. Nous regardons ces deux informations pour chaque page du corpus.
1. Apprentissage multimédia
Il apparaît que pour cette page cinq étudiants, deux producteurs et trois discutants, ont participé à la discussion. L'étudiant ayant le plus interagit dans la discussion est l'un des deux producteurs (utilisateur02), avec sept messages postés. Toutefois, le second producteur (utilisateur01) a beaucoup moins interagit que son collègue avec seulement trois messages postés. Les discutants ont contribué entre trois et quatre fois, ce qui semble démontrer une bonne implication.
2. Développement moral et psychosocial
Sur cette page, les étudiants étaient au nombre de six, soit deux producteurs et deux discutants. Les deux producteurs (utilisateur 01 et 02) ont tous les deux posté le plus de messages avec respectivement sept et quatre messages. Quant aux discutants, ils n'ont posté que deux messages chacun.
3. Flow
Nous pouvons constater que sept utilisateurs ont participé à la discussion - deux producteurs et cinq discutants - ce qui est supérieur aux trois autres pages. A nouveau, les deux étudiants les plus actifs sont les deux producteurs (utilisateur 01 et 02) avec respectivement quatre et cinq messages. Les discutants ont quant à eux posté entre un et trois messages. Il apparaît donc que les utilisateurs 04 et 06 n'ont pas suffisamment interagit à propos des productions.
4. Psychologie différentielle
La discussion à propos des productions de cette page à concerné cinq étudiants au total, dont deux producteurs et trois discutants. L'un des deux producteurs (utilisateur01) a posté le plus de messages (5). Le second producteur (utilisateur02) a quant à lui posté trois messages. Les discutants ont interagit quatre, trois ou une fois. L'utilisateur04 n'a apparemment pas suffisamment participé à la discussion sur les productions de ses collègues.
Question 2 : termes qui reviennent le plus fréquemment
Afin de répondre à cette question, nous utilisons la fonctionnalité "Cirrus" de Voyant Tools. Celle-ci permet l’élaboration d’un nuage de mots, dans lequel plus le mot est utilisé fréquemment, plus il apparaît gros dans le nuage. L’avantage de cette fonctionnalité est de proposer une représentation très visuelle des occurrences. Toutefois, pour connaître plus en détail le nombre de fois exact que chaque terme apparaît dans le corpus, il est possible de regarder dans « Words in the entire corpus » que nous avons déjà utilisé pour répondre à la première question.
Au démarrage de l’outil Voyant Tools, le nuage de mots se crée automatiquement en haut à gauche de la page. En laissant la configuration par défaut, il apparaît que les mots les plus fréquents sont des déterminants, des prépositions, etc. ce qui n’est pas réellement intéressant pour notre analyse. Afin de remédier à ce problème, il faut ajouter une « Stop Word List » qui va supprimer les mots indésirables.
Pour ce faire, il faut commencer par cliquer sur l’onglet « options » dans la fenêtre de la fonctionnalité "Cirrus".
Voyant Tools propose plusieurs stop lists en fonction de la langue du document. Etant donné que nous travaillons sur un corpus rédigé en français, nous avons choisi la stop liste « French (Veronis) »
Il est également possible de modifier la liste proposée en ajoutant ou supprimant certains mots ou encore de créer entièrement sa propre stop list personalisée. Pour l'ensemble de notre corpus, nous avons choisi d'ajouter trois mots à la stop list : carte, conceptuelle et vidéographie. En effet, ces mots sont forcément beaucoup utilisés dans le corpus et risquent donc de masquer d’autres mots plus intéressants pour notre analyse.
1. Apprentissage multimédia
Il apparaît dans ce nuage que les deux mots les plus fréquents sont "apprentissage" et "multimédia". Cette constatation semble logique étant donné qu'il s'agit du sujet traité dans la page. De plus, certains mots comme "processus", "concept" apparaissent comme étant également très présents. Ceci pourrait témoigner d'une réelle discussion entre les étudiants mais cette hypothèse doit être vérifiée par la lecture des passages dans lesquels ces mots apparaissent. Par ailleurs, il intéressant de noter que, étant donné que nous avions laissé les dates des messages, le mot "avril" apparaît parmi les termes fréquents. Cela peut ainsi nous indiquer à quel moment les étudiants ont le plus échangé de messages.
2. Développement moral et psychosocial
Les termes les plus fréquemment utilisés dans cette page sont : "développement", "moral", "Kohlberg" et "stades". A l'inverse de la première page, tous les mots du sujet traité n’apparaissent pas parmi les termes les plus fréquemment utilisés. En effet, si les termes "développement" et "moral" sont très présents, le terme "psychosocial" est quant à lui beaucoup moins utilisé. Nous pouvons donc faire l'hypothèse que les savoirs se sont construits en majorité autour du concept du développement moral que psychosocial, et notamment autour de Kohlberg. D'autre part, la présence non négligeable du terme "décembre" nous indique la période présentant la plus forte activité sur la page de discussion.
3. Flow
Dans ce nuage, le mot qui apparaît le plus fréquemment est très nettement le concept du "flow", qui est le sujet traité dans les productions. Les termes qui semblent également fréquents sont: "conditions", "concept" et "caractéristiques". Ces mots peuvent être témoins d'une réelle construction, ou du moins, d'un partage et une négociation du savoir entre les étudiants.
4. Psychologie différentielle
Nous pouvons constater à l'aide de ce nuage que, contrairement au trois premières pages, les termes propres au sujet traité ("psychologie" et "différentielle") ne sont pas ceux qui apparaissent le plus souvent dans les messages des étudiants. Les mots les plus utilisés sont "tests", "qi" et "historique". Il semble donc que les sujets les plus discutés concernent des tests de QI et il est très probable de trouver également des discussions autour d'un historique. Par ailleurs, l'apparition des termes "mai" et "juin" laissent penser que la majorité des interactions se sont déroulées sur cette période-ci.
Question 3 : critères de jugement utilisés par les intervenants
Afin de répondre à cette troisième question, il semble plus pertinent réaliser une seule analyse de la totalité du corpus plutôt que d’analyser chaque page de discussion de manière séparée. En effet, les critères de jugement des productions peuvent être les mêmes quelque soit le sujet discuté ou les personnes qui les appliquent.
Dans le cadre de cette analyse, nous avons choisi d'utiliser les adjectifs qualificatifs comme indicateurs des critères de jugement. Effectivement, un adjectif qualitatif a pour rôle d'exprimer notamment une qualité de l'être ou de l'objet désigné par le nom auquel il est associé.
Pour répondre à cette troisième question, nous utilisons le logiciel gratuit Tropes. L'avantage de ce logiciel est qu'il prend en charge la langue française, ce qui est très utile lorsque l'on cherche à analyser un texte en prenant en compte le sens de ses mots (et pas seulement les occurrences).
Une fois le(s) fichier(s) importé(s) dans Tropes, le logiciel met à disposition en haut à gauche une série d'outils d'analyse. Au sein de cette liste, nous nous intéressons à la catégorie "Adjectifs". En cliquant dessus, une liste des différents adjectifs utilisés dans le corpus apparaît. Les adjectifs sont triés par fréquence décroissante et le nombre situé à gauche des adjectifs indique le nombre des occurrences. Il est également important de noter que les mots ont été automatiquement lemmatisés par le logiciel (réduits au masculin singulier).
L'analyse de l'ensemble du corpus, composé des quatre pages de discussion propose les résultats suivants:
Parmi cette liste, nous allons regarder plus précisément différents adjectifs qui se démarquent. Nous décidons de retenir les adjectifs qui peuvent être considérés comme des jugements de la qualité de l'objet, c'est à dire des productions. Ces adjectifs sont les suivants: "bon", "clair", "intéressant", "excellent", "lisible", "cohérent", "complet" et "synthétique". Cependant, il est très important de les re-situer dans leur contexte afin d'être sûr qu'ils constituent effectivement des critères de jugement. Nous allons donc les considérer un par un et regarder un extrait des différents contextes dans lesquels ils prennent place. Pour afficher le contexte dans Tropes, il suffit de cliquer sur l'adjectif voulu et la liste des phrases contenant le mot s'affiche dans une autre fenêtre.
- bon
Dans cet extrait, nous pouvons constater que l'adjectif "bon" peut effectivement être utilisé pour juger une production (lignes 2 et 3), mais également pour des salutations (lignes 1 et 4). Nous pouvons donc affirmer qu'il s'agit bien d'un jugement (une production est bonne ou non) mais qu'il faut se méfier du nombre indiqué des occurrences puisque certaines d'entre elles ne constituent pas un jugement.
- clair
Cet adjectif semble être utilisé aussi bien pour décrire les productions que pour les commentaires rédigés par les étudiants. Toutefois, dans le corpus entier, il apparaît que "clair" est un critère de jugement fortement utilisé par les étudiants (une production est claire ou non).
- intéressant
Dans notre corpus, le terme "intéressant" apparaît comme un critère de jugement. Il est effectivement fréquemment utilisé pour décrire et juger les productions.
- excellent
Ainsi que le montre cet extrait de corpus, l'adjectif "excellent" n'est jamais utilisé pour juger une production. Il est uniquement utilisé à des fins de salutations.
- lisible
Dans le corpus qui nous intéresse, le critère de la lisibilité des productions est utilisé à des fins de jugement.
- cohérent
Lorsque nous replaçons l'adjectif "cohérent" dans son contexte, nous constatons qu'il est utilisé pour juger les productions. Nous pouvons donc affirmer que la cohérence est un critère de jugement utilisé par les étudiants.
- complet
Il apparaît une nouvelle fois que l'adjectif "complet" est utilisé à des fins de jugement des productions.
- synthétique
Dans le corpus des pages de discussion auquel nous nous sommes intéressé, il semble que l'aspect "synthétique" d'une production soit considéré comme positif. Il constitue donc un critère de jugement.
En répondant à cette troisième question, nous avons pu mettre en avant les différents adjectifs utilisés pour juger une production. Il apparaît toutefois qu'il est nécessaire de se rapporter au contexte dans lequel l'adjectif s'inscrit afin d'éviter une généralisation injustifiée.
Conclusion
L'objectif des analyses que nous avons effectuées était de montrer comment la méthode du text mining pouvait être utilisée dans le cadre d'une évaluation par les pairs. Ce traitement automatique de textes permet d'aider l'enseignant à évaluer et situer le travail de ses étudiants.
Au cours de ces analyses nous avons répondu à trois questions et mis en évidence trois techniques complémentaires qui peuvent être utilisées par un enseignant.
Tout d'abord, nous avons mis en évidence le nombre de participants intervenant sur chacune des pages ainsi que le nombre de leurs interventions. En comptabilisant les messages postés (surtout pour les discutants), l'enseignant peut connaître l'implication des différents étudiants et en tenir compte lors de son évaluation. Ensuite, nous avons pu constater que l'observation des mots fréquemment utilisés permet à l'enseignant de savoir rapidement les sujets traités dans chaque page de discussion et, par extension dans les différentes productions réalisées par les étudiants. La fréquence des termes utilisés peut également fournir des informations sur la nature des interventions et, avec prudence, sur la possible co-construction de savoir. Finalement, la mise en avant des adjectifs utilisés par les étudiants, nous a permis de relever certains critères de jugement sur lesquels se basent les étudiants. Dans le cadre de notre analyse, l'utilisation des adjectifs était pertinente, cependant, en fonction du travail évalué, l'utilisation d'autres outils sémantiques peuvent s'avérer également utiles pour les enseignants.
Au cours l'analyse, et particulièrement pour la troisième question, nous avons constaté que l'utilisation seule des outils d'occurrence ne suffit pas, au risque d'être induit en erreur. Effectivement, et particulièrement lorsque l'on focalise une analyse sur le sens d'un texte, il semble important de tenir du compte du contexte dans lequel les termes s'inscrivent.
Références bibliographiques
Bostock, S. (2000). Student peer assessment. Learning Technology.
Boud, D. (1989). The role of self-assessment in student grading. Assessment and Evaluation in HigherEducation, 14, 20–30.
Sadler, P. M. & Good, E. (2006). The Impact of Self- and Peer-Grading on Student Learning. Educational Assessment, 11.1, 1-31.
Topping, K. (1998). Peer assessment between students in Colleges and Universities. Review of educational research, 68, 249-276.