« Designs quasi-expérimentaux » : différence entre les versions
mAucun résumé des modifications |
|||
Ligne 129 : | Ligne 129 : | ||
Mortalité </td> <td> | Mortalité </td> <td> | ||
Les sujets ne sont | Les sujets ne sont plus les mêmes | ||
Exemple: une école introduit des mesures spéciales pour motiver les «élèves difficiles». Après 2-3 ans, les taux d’abandon diminuent. L’école est peut-être située dans une zone qui connaît des changements socio-démographiques rapides (différentes personnes). </td> </tr> <tr> <td> | Exemple: une école introduit des mesures spéciales pour motiver les «élèves difficiles». Après 2-3 ans, les taux d’abandon diminuent. L’école est peut-être située dans une zone qui connaît des changements socio-démographiques rapides (différentes personnes). </td> </tr> <tr> <td> |
Dernière version du 7 juin 2022 à 17:11
Manuel de recherche en technologie éducative | |
---|---|
Module: Designs de recherche orientés test de théorie | |
◀▬▬▶ | |
⚐ à améliorer | ☸ débutant |
⚒ 2022/06/07 | ⚒⚒ 2015/03/27 |
Pourquoi les designs quasi-expérimentaux ?
Il est difficile de mener des expériences dans des contextes réels, e.g. dans des écoles. Toutefois, il existe des designs qu’on appelle les designs quasi-expérimentaux. Ils s’inspirent de principes de designs expérimentaux (pré-tests, post-tests et groupes contrôle). Ces designs ont l’avantage de pouvoir être menés dans des situations non-expérimentales, i.e. dans des contextes «réels» et peuvent être utilisés lorsque les vrais traitements expérimentaux deviennent trop «lourds», i.e. lorsqu’ils nécessitent plus de 2-3 variables de traitement bien définies.
Les désavantages des situations quasi-expérimentales sont liés au manque de contrôle:
- Vous ne connaissez pas tous les stimuli possibles (i.e. les causes qui ne sont pas dues aux conditions expérimentales)
- Vous ne pouvez pas distribuer de manière aléatoire (distribuer équitablement d’autres stimuli intermédiaires non connus aux groupes)
- Vous pourriez manquer de sujets
Cependant, la recherche quasi-expérimentale peut aider à tester toutes sortes de variables que vous ne pouvez pas contrôler. On les appelle des obstacles à la validité interne.
Dans le domaine de l’éducation, les designs quasi-expérimentaux sont particulièrement appréciés dans la recherche évaluation et dans la recherche sur les innovations organisationnelles. Les connaissances en matière de design quasi-expérimental contribuent également à améliorer la qualité des questionnaires dans les enquêtes par sondage (pensez aux variables de contrôle pour tester des hypothèses alternatives).
Comme dans la recherche expérimentale, il existe plusieurs designs de recherche quasi-expérimentaux différents. Certains sont plus faciles à mener, mais ils donneront des résultats moins robustes (validité). Nous allons nous intéresser à une partie d’entre eux.
Design de la série chronologique interrompue
Une série temporelle, ou série chronologique, est une suite de mesures qui représentent un évolution de quelque chose au cours du temps.
Dans le schéma suivant (Figure 31), correspondant à la série chronologique interrompue, nous cherchons à contrôler l’effet d’autres événements possibles (traitements) sur un groupe expérimental donné.
L’avantage de ce design est qu’il permet de contrôler quelque peu les tendances (naturelles), i.e. lorsque vous observez ou introduisez un traitement, e.g. une réforme pédagogique, vous ne pouvez pas avoir la certitude que ce sont les éléments de la réforme qui produisent les effets recherchés: les changements peuvent être dus à autre chose, comme une tendance générale vers de meilleures capacités au sein d’une population d’étudiants.
Les problèmes de ce design sont les suivants: vous ne pouvez pas contrôler des événements externes simultanés (X2 se produisant en même temps que X1).
Voici un exemple de l’effet de la pédagogie fondée sur les TIC en classe. Les méthodes pédagogiques fondées sur les TIC que vous étudiez peuvent avoir été introduites en même temps que d’autres innovations pédagogiques. Qu’est-ce qui a le plus influencé la performance globale; s’agit-il des TIC ou des autres innovations?
Il existe également des difficultés pratiques: il est parfois impossible d’obtenir des données sur les années écoulées. Parfois, vous n’avez pas suffisamment de temps à disposition (votre recherche se termine trop tôt et les décideurs sont toujours pressés pour attendre des résultats sur le long terme).
Exemple: les pédagogies fondées sur les TIC affirment souvent pouvoir améliorer les facultés métacognitives. Avez-vous des tests pour les années 1-2-3? Pouvez-vous attendre l’année +3? Pouvez-vous tester la même population lorsque les sujets entrent à l’université ou trouvent des emplois dans lesquels leurs facultés métacognitives ont plus d’importance?
Exemples de séries chronologiques
Nous allons nous intéresser de manière informelle à quelque modèles de séries temporelles interrompues, i.e. regarder des mesures qui évoluent dans le temps et qui peuvent confirmer ou infirmer des hypothèses sur une intervention X.
Dans la Figure 32, O2, O3, etc., sont des données d’observation (e.g. annuelles). X est le traitement (intervention).
1. A. Un effet statistique est probable
- Exemple: les taux d’étudiants qui abandonnent les études ont baissé avec l’introduction de forums sur le serveur d’apprentissage en ligne.
- Toutefois, vous devez vous méfier de vos interprétations: vous n’avez pas connaissance d’une éventuelle autre intervention qui pourrait avoir eu lieu en même temps.
2. B. Un effet statistique de type feu de paille ou «éphémère»
- Exemple: l’enseignement s’est amélioré lorsque nous avons introduit X, puis tout est redevenu comme avant.
- Il y a un effet constaté suite à l’intervention mais après un certain temps, la cause «s’épuise», e.g. une motivation en forte hausse suite à l’introduction des TIC dans le programme, qui ne s’installe pas forcément dans la durée.
3. C. Tendance naturelle (pas d’effet)
- Vous pouvez contrôler cette erreur en regardant au-delà de O4 et O5!
4. D. Confusion entre les effets de cycle et l’intervention
- Exemple: Le gouvernement a introduit des mesures pour lutter contre le chômage, mais il se peut que l’amélioration de la situation s’explique par un cycle économique naturel. Vous pouvez le vérifier en analysant l’ensemble de la série chronologique.
5. E. Effet retardé
- Exemple: Les effets de gros investissements dans l’éducation sur la croissance économique (peuvent se manifester plusieurs décennies plus tard)
6. F. Effet d’accélération de tendance
- Difficile à différencier de G, i.e. la courbe pourrait connaître un léger changement, mais il pourrait uniquement s’agir d’une variante de l’évolution naturelle exponentielle.
7. G. Evolution naturelle exponentielle
- Identique à (C).
Obstacles à la validité interne
La question clé à vous poser de manière récurrente est: quelles sont les autres variables non-contrôlées voir cachées qui pourraient influencer mes/nos expériences?. Campbell et Stanley (1963) [1] ont élaboré une première typologie d’obstacles dont vous devez vous méfier:
Type d’obstacle | Définition et exemple |
---|---|
Histoire |
Un autre événement que X se produit entre les mesures. Exemple: l’introduction des TIC a eu lieu en même temps que l’introduction de l’enseignement par projet. |
Maturation |
L’objet a changé «naturellement» entre les mesures Exemple: ce cours a-t-il changé votre connaissance de la méthodologie ou est-ce simplement dû au fait que vous avez commencé à travailler sur votre projet de thèse? |
Test |
La mesure a eu un effet sur l’objet Exemple: vos entretiens précédant l’intervention ont eu un effet sur les gens (e.g. les enseignants ont changé de comportement avant que vous ne les invitiez à des séances de formation) |
Instrumentation |
La méthode de mesure a changé Exemple: les capacités de lecture sont définies différemment. e.g. de nouveaux tests favorisent la compréhension textuelle. |
Régression statistique |
Les différences se seraient réduites naturellement Exemple: une école introduit de nouvelles mesures disciplinaires suite à l’agression d’un enseignant par des élèves. Il se peut que de tels événements ne se seraient pas reproduits l’année suivante, même sans intervention. |
(Auto) sélection |
Les sujets sont auto-sélectionnés pour le traitement Exemple: vous introduisez de nouvelles pédagogies fondées sur les TIC et les résultats sont très bons (il se peut que seuls de bons enseignants aient participé à ces expériences). |
Mortalité |
Les sujets ne sont plus les mêmes Exemple: une école introduit des mesures spéciales pour motiver les «élèves difficiles». Après 2-3 ans, les taux d’abandon diminuent. L’école est peut-être située dans une zone qui connaît des changements socio-démographiques rapides (différentes personnes). |
Interaction avec sélection | Exemple d’effets combinés: le groupe contrôle montre une maturation différente |
Ambiguté directionnelle |
L’effet est-il dû au traitement ou à des sujets différents? Exemple: les performances d’employés sont-elles meilleures dans une organisation à hiérarchie «horizontale» / participative / équipée de TIC, ou est-ce qu’une telle organisation attire des individus plus actifs et plus efficaces? |
Diffusion ou imitation de traitement |
Le traitement a un effet sur le groupe contrôle Exemple: une unité académique promeut un enseignement hybride moderne et attire des étudiants provenant d’une vaste zone géographique. Une unité de contrôle peut également bénéficier de cet effet. |
Egalisation compensatoire |
Le groupe contrôle observe le groupe expérimental Exemple: les sujets qui ne reçoivent aucun traitement réagissent en se comportant différemment. |
Tableau 17: Obstacles à la validité interne
Une règle efficace consiste à réfléchir et à chercher d’autres explications susceptibles d’expliquer un phénomène. Toutefois, de bons designs de recherche peuvent également permettre de produire une recherche valide. Voyons à présent quelques designs qui tentent de contrôler de tels obstacles à la validité interne.
Design avec groupe contrôle non équivalent
Ce design adopte des comparaisons entre deux groupes contrôle similaires (mais pas équivalents). L’avantage de ce design réside dans son efficacité à détecter d’éventuelles influences de causes extérieures (i.e. des causes différentes des causes liées à l’intervention).
- Si O2 ― O1 est similaire à O4 ― O3
- → nous pouvons rejeter l’hypothèse selon laquelle O2 ― O1 est du à X,
- → ou nous pouvons corroborer l’effet expérimental de X (Figure 33).
Voici les problèmes et les désavantages possibles de ce design:
- Mauvais contrôle des tendances naturelles, comme discuté dans le cadre de la série chronologique interrompue.
- Trouver des groupes équivalents n’est pas facile dans certains contextes «réels».
- Vous pourriez également rencontrer des effets d’interactions entre les groupes, e.g. l’imitation du groupe expérimental par le groupe contrôle.
Ce design avec groupe contrôle non équivalent n’est qu’un type de design de contrôle. Il est parfois possible d’utiliser des designs de contrôle aléatoires. Nous pouvons également créer deux ou trois designs de facteurs qui peuvent tester les interactions de variables indépendantes (facteurs). La conception et l’analyse de tels designs plus complexes sort cependant du cadre de cette introduction. Pour en savoir plus, vous pouvez consulter les ouvrages de Campbell, Stanley, Cook et Shadish. Par exemple: Experimental and Quasi-Experimental Designs for Generalized Causal Inference
Expérience et effets d’imitation
Voici un exemple d’effet d’imitation (Figure 34). Dans le cadre d’un programme diplômant, nous introduisons une plateforme d’apprentissage dans un seul des cours. Nous nous intéressons alors à trois effets: le coût, la satisfaction des étudiants et le respect des délais en les comparant à un cours similaire donné par un autre enseignant.
Cours A Introduction d’une plateforme d’apprentissage |
Cours B Pas d’introduction de plateforme |
||
---|---|---|---|
Effet 1:coûts | augmente | stable | comparaison horizontale des résultats |
Effet 2: satisfaction des étudiants | augmente | augmente | |
Effet 3: respect des délais (pour la remise des travaux) | meilleur | stable |
- Figure 34: Exemple d'effet d'imitation
Pour pratiquer:
Pourquoi la satisfaction des étudiants pourrait-elle également augmenter chez les étudiants du cours B?
Série chronologique comparative
L’un des designs de recherche quasi-expérimentale les plus puissants se sert de séries chronologiques comparatives (Figure 35). Ce design est une combinaison de la série chronologique interrompue et du groupe contrôle non équivalent, que nous avons présentés précédemment.
Ce design est efficace pour contrôler plusieurs obstacles à la validité car il permetde:
- comparer différents groupes (situations) et aussi de contrôler d’autres variables intevening;
- faire une série de pré- et de post-observations (tests) pour contrôler des tendances naturelles et un effet statistique de type feu de paille ou «éphémère».
Les difficultés de ce design sont pratiques. Il n’est pas facile (et parfois impossible) de:
- trouver des groupes comparables,
- trouver des groupes avec plus que un ou quelques cas,
- trouver des données (en particulier des données passées ou futures),
- de contrôler des interventions simultanées au point X.
La validité dans les designs quasi expérimentaux
Généralisons à présent la discussion et abordons les problèmes de causalité et leur validité. Selon Campbell & Stanley (1963), il existe quatre types de validité:
Type de validité | Explications |
---|---|
Validité interne |
«Elle désigne l’aptitude des données collectées à représenter réellement le phénomène étudié. Ceci concerne aussi bien la pertinence du choix des catégories utilisées pour coder les données issues d’une observation systématique que le fait de s’assurer que les traitements appliqués dans une étude expérimentale expliquent bien les changements de comportement manifestés par les sujets (si on peut les expliquer autrement la validité interne n’est pas bonne)». (Buts, types et qualités d’une recherche en éducation, DESTE, UMons) Elle concerne le design (stratégie d’investigation) de votre recherche Vous devez démontrer que les causes que vous posez comme causes sont «réelles» et que toute autre explication est fausse. C’est le type de validité le plus important. |
Validité externe |
«Elle désigne le degré selon lequel les résultats d’une étude peuvent être généralisés à une population plus large. Cette définition a une signification différente selon qu’on s’inscrit dans le paradigme quantitatif ou qualitatif. Ainsi, dans une recherche quantitative, c’est la conception même de la recherche basée sur un échantillonnage représentatif des sujets qui va assurer, dans une mesure plus ou moins grande, cette validité externe.» (Buts, types et qualités d’une recherche en éducation, DESTE, UMons) La question à vous poser: pouvez-vous généraliser? Ceci n’est pas facile, car vous pourriez ne pas avoir conscience de variables «favorables», e.g. le «bon enseignant» avec lequel vous avez travaillé ou le fait que les choses étaient bien plus faciles dans votre école privée... Comment pouvez-vous être certain que vos expériences d’introduction des TIC dans une situation donnée et couronnées de succès seraient également couronnées de succès dans des situations similaires (ou peu similaires)? |
Validité statistique | ... vos relations statistiques sont-elles significatives? Pour une analyse simple, ce type de validité n’est pas difficile. Faites en sorte d’utiliser les bonnes statistiques et fiez-vous à ces statistiques. |
Validité de construction | ...est-ce que l’opérationnalisation de vos concepts est solide?
Vos dimensions sont-elles justes? Vos indicateurs mesurent-ils vraiment ce que vous cherchez à savoir? |
- Typologie de la validité (Stanley et al.)
Important: Cette typologie est également utile dans d’autres contextes, e.g. des analyses qualitatives structurées ou des designs statistiques. Dans la plupart des autres designs de recherche empirique, vous devez également traiter ces problèmes.
Exemple de travail de recherche quasi-expérimental
Étude de l’apport de la non-linéarité au récit éducatif
- Auteur Baptiste Campion, Groupe de recherche en médiation des savoirs (GReMS), , Centre de recherche en communication (RECOM), Université catholique de Louvain (UCL) [2]
Cet article, qui est en accès libre, décrit deux études. Voici quelques éléments méthodologiques de la première étude.
- Les enfants ont été répartis en deux groupes de sujets
- condition 1: ont du lire individuellement un récit éducatif linéaire
- condition 2: ont du lire un récit non linéaire
Un questionnaire écrit portant sur le récit lu et sur le domaine de connaissanceetait destiné à évaluer la compréhension des enfants du récit et leur compréhension du contenu éducatif. Il comportait quatre questions: «une question de résolution de problème, une question de restitution libre, une épreuve de dessin et une épreuve de définition de termes du domaine de connaissance, expliqués ou non dans l’hypertexte.»
- Matériel (citation légèrement abbréviéd)
- Les récits éducatifs utilisés consistaient en un petit hypertexte de 15 (pour la version linéaire) à 22 pages-écran (pour la version non linéaire) relatant un phénomène scientifique simple : le mécanisme de formation d’une carie dentaire (notre domaine de connaissance). Ce mécanisme est en principe inconnu des enfants – au moins dans ses détails –, son enseignement ne faisant pas partie du programme scolaire. Le caractère narratif des hypertextes a été garanti par un strict respect de 6 critères caractérisant le texte narratif selon Adam (1999).
- Contrôles concernant la validité interne
Un test semblable a été mené auprès de deux autres groupes de sujets : un groupe faisant l’expérience en lisant à la place du récit une explication didactique non narrative, et un groupe de contrôle n’ayant lu aucune explication du domaine de connaissance. Il s’agit, par comparaison avec ces deux groupes de références, de pouvoir imputer les effets observés aux caractéristiques des récits lus par les sujets des conditions 1 et 2. Enfin, la pratique (déclarée) des TIC des participants a été évaluée, pour écarter, lors du traitement des données, les réponses de sujets dont la familiarité avec les technologies numériques apparaîtraient sensiblement différentes de la moyenne de l’échantillon, afin d’éviter d’attribuer des variations dans les représentations des sujets à des difficultés (ou facilités) d’usage du dispositif. Il s’agissait, là aussi, de garantir un échantillon aussi homogène que possible. ([2])
Références et Bibliographie
Ouvrages cités
- ↑ Cook, Thomas, K. and Campbell, Donald T. (1979). Quasi-Experimentation: Design and Analysis Issues for Field Settings, Houghton Mifflin Company, ISBN 0395307902
- ↑ 2,0 2,1 et 2,2 Campion Baptiste, « Étude de l'apport de la non-linéarité au récit éducatif », Document numérique 3/2012 (Vol. 15) , p. 49-70 http://dx.doi.org/10.3166/DN.15.3.49-70.
Lectures supplémentaires
- Campbell D. T., 1957, « Facteurs intéressant la validité des études expérimentales dans les contextes sociaux », pp. 47-61, in : Lemaine G., Lemaine J.-M., dirs, Psychologie sociale et expérimentation, Paris, Mouton, 1969.
- Grosbois, Muriel (2007),Didactique des langues et recherche expérimentale, Les Cahiers de l'Acedle', numéro 4. PDF
- Ce texte discute l'apport des démarches expérimentales et quasi expérimentales dans une discipline spécifique.
- Herbert, Maud (2005). Petit abrégé pour mieux comprendre la notion de méthode expérimentale et ses enjeux méthodologiques, Université Paris-Dauphine, Résumé/PDF complet
- Ce texte comprend une petite section sur la démarche quasi-expérimentale
- Thierry Meyer, Validité externe et méthode expérimentale,
- Rey, Olivier (2014). Entre laboratoire et terrain : comment la recherche fait ses preuves en éducation. Dossier de veille de l’IFÉ, n°89, janvier. Lyon : ENS de Lyon. http://edupass.hypotheses.org/13
- Ce texte discute globalement de la question de "evidence-based" education et discute plusieurs approches.