Designs quasi-expérimentaux

De EduTech Wiki
Aller à la navigation Aller à la recherche
Manuel de recherche en technologie éducative
Module: Designs de recherche orientés test de théorie
◀▬▬▶
à améliorer débutant
2015/04/08 ⚒⚒ 2015/03/27


Pourquoi les designs quasi-expérimentaux ?

Il est difficile de mener des expériences dans des contextes réels, e.g. dans des écoles. Toutefois, il existe des designs qu’on appelle les designs quasi-expérimentaux. Ils s’inspirent de principes de designs expérimentaux (pré-tests, post-tests et groupes contrôle). Ces designs ont l’avantage de pouvoir être menés dans des situations non-expérimentales, i.e. dans des contextes «réels» et peuvent être utilisés lorsque les vrais traitements expérimentaux deviennent trop «lourds», i.e. lorsqu’ils nécessitent plus de 2-3 variables de traitement bien définies.

Les désavantages des situations quasi-expérimentales sont liés au manque de contrôle:

  • Vous ne connaissez pas tous les stimuli possibles (i.e. les causes qui ne sont pas dues aux conditions expérimentales)
  • Vous ne pouvez pas distribuer de manière aléatoire (distribuer équitablement d’autres stimuli intermédiaires non connus aux groupes)
  • Vous pourriez manquer de sujets

Cependant, la recherche quasi-expérimentale peut aider à tester toutes sortes de variables que vous ne pouvez pas contrôler. On les appelle des obstacles à la validité interne.

Dans le domaine de l’éducation, les designs quasi-expérimentaux sont particulièrement appréciés dans la recherche évaluation et dans la recherche sur les innovations organisationnelles. Les connaissances en matière de design quasi-expérimental contribuent également à améliorer la qualité des questionnaires dans les enquêtes par sondage (pensez aux variables de contrôle pour tester des hypothèses alternatives).

Comme dans la recherche expérimentale, il existe plusieurs designs de recherche quasi-expérimentaux différents. Certains sont plus faciles à mener, mais ils donneront des résultats moins robustes (validité). Nous allons nous intéresser à une partie d’entre eux.

Design de la série chronologique interrompue

Une série temporelle, ou série chronologique, est une suite de mesures qui représentent un évolution de quelque chose au cours du temps.

Dans le schéma suivant (Figure 31), correspondant à la série chronologique interrompue, nous cherchons à contrôler l’effet d’autres événements possibles (traitements) sur un groupe expérimental donné.

Figure 31: Design de la série chronologique interrompue

L’avantage de ce design est qu’il permet de contrôler quelque peu les tendances (naturelles), i.e. lorsque vous observez ou introduisez un traitement, e.g. une réforme pédagogique, vous ne pouvez pas avoir la certitude que ce sont les éléments de la réforme qui produisent les effets recherchés: les changements peuvent être dus à autre chose, comme une tendance générale vers de meilleures capacités au sein d’une population d’étudiants.

Les problèmes de ce design sont les suivants: vous ne pouvez pas contrôler des événements externes simultanés (X2 se produisant en même temps que X1).

Voici un exemple de l’effet de la pédagogie fondée sur les TIC en classe. Les méthodes pédagogiques fondées sur les TIC que vous étudiez peuvent avoir été introduites en même temps que d’autres innovations pédagogiques. Qu’est-ce qui a le plus influencé la performance globale; s’agit-il des TIC ou des autres innovations?

Il existe également des difficultés pratiques: il est parfois impossible d’obtenir des données sur les années écoulées. Parfois, vous n’avez pas suffisamment de temps à disposition (votre recherche se termine trop tôt et les décideurs sont toujours pressés pour attendre des résultats sur le long terme).

Exemple: les pédagogies fondées sur les TIC affirment souvent pouvoir améliorer les facultés métacognitives. Avez-vous des tests pour les années 1-2-3? Pouvez-vous attendre l’année +3? Pouvez-vous tester la même population lorsque les sujets entrent à l’université ou trouvent des emplois dans lesquels leurs facultés métacognitives ont plus d’importance?

Exemples de séries chronologiques

Nous allons nous intéresser de manière informelle à quelque modèles de séries temporelles interrompues, i.e. regarder des mesures qui évoluent dans le temps et qui peuvent confirmer ou infirmer des hypothèses sur une intervention X.

Figure 32: Exemple de série chronologique interrompue

Dans la Figure 32, O2, O3, etc., sont des données d’observation (e.g. annuelles). X est le traitement (intervention).

1. A. Un effet statistique est probable

  • Exemple: les taux d’étudiants qui abandonnent les études ont baissé avec l’introduction de forums sur le serveur d’apprentissage en ligne.
  • Toutefois, vous devez vous méfier de vos interprétations: vous n’avez pas connaissance d’une éventuelle autre intervention qui pourrait avoir eu lieu en même temps.

2. B. Un effet statistique de type feu de paille ou «éphémère»

  • Exemple: l’enseignement s’est amélioré lorsque nous avons introduit X, puis tout est redevenu comme avant.
  • Il y a un effet constaté suite à l’intervention mais après un certain temps, la cause «s’épuise», e.g. une motivation en forte hausse suite à l’introduction des TIC dans le programme, qui ne s’installe pas forcément dans la durée.

3. C. Tendance naturelle (pas d’effet)

  • Vous pouvez contrôler cette erreur en regardant au-delà de O4 et O5!

4. D. Confusion entre les effets de cycle et l’intervention

  • Exemple: Le gouvernement a introduit des mesures pour lutter contre le chômage, mais il se peut que l’amélioration de la situation s’explique par un cycle économique naturel. Vous pouvez le vérifier en analysant l’ensemble de la série chronologique.

5. E. Effet retardé

  • Exemple: Les effets de gros investissements dans l’éducation sur la croissance économique (peuvent se manifester plusieurs décennies plus tard)

6. F. Effet d’accélération de tendance

  • Difficile à différencier de G, i.e. la courbe pourrait connaître un léger changement, mais il pourrait uniquement s’agir d’une variante de l’évolution naturelle exponentielle.

7. G. Evolution naturelle exponentielle

  • Identique à (C).

Obstacles à la validité interne

La question clé à vous poser de manière récurrente est: quelles sont les autres variables non-contrôlées voir cachées qui pourraient influencer mes/nos expériences?. Campbell et Stanley (1963) [1] ont élaboré une première typologie d’obstacles dont vous devez vous méfier:

Type d’obstacle Définition et exemple
Histoire

Un autre événement que X se produit entre les mesures.

Exemple: l’introduction des TIC a eu lieu en même temps que l’introduction de l’enseignement par projet.
Maturation

L’objet a changé «naturellement» entre les mesures

Exemple: ce cours a-t-il changé votre connaissance de la méthodologie ou est-ce simplement dû au fait que vous avez commencé à travailler sur votre projet de thèse?
Test

La mesure a eu un effet sur l’objet

Exemple: vos entretiens précédant l’intervention ont eu un effet sur les gens (e.g. les enseignants ont changé de comportement avant que vous ne les invitiez à des séances de formation)
Instrumentation

La méthode de mesure a changé

Exemple: les capacités de lecture sont définies différemment. e.g. de nouveaux tests favorisent la compréhension textuelle.
Régression statistique

Les différences se seraient réduites naturellement

Exemple: une école introduit de nouvelles mesures disciplinaires suite à l’agression d’un enseignant par des élèves. Il se peut que de tels événements ne se seraient pas reproduits l’année suivante, même sans intervention.
(Auto) sélection

Les sujets sont auto-sélectionnés pour le traitement

Exemple: vous introduisez de nouvelles pédagogies fondées sur les TIC et les résultats sont très bons (il se peut que seuls de bons enseignants aient participé à ces expériences).
Mortalité

Les sujets ne sont pas les mêmes

Exemple: une école introduit des mesures spéciales pour motiver les «élèves difficiles». Après 2-3 ans, les taux d’abandon diminuent. L’école est peut-être située dans une zone qui connaît des changements socio-démographiques rapides (différentes personnes).
Interaction avec
sélection
Exemple d’effets combinés: le groupe contrôle montre une maturation différente
Ambiguté directionnelle

L’effet est-il dû au traitement ou à des sujets différents?

Exemple: les performances d’employés sont-elles meilleures dans une organisation à hiérarchie «horizontale» / participative / équipée de TIC, ou est-ce qu’une telle organisation attire des individus plus actifs et plus efficaces?
Diffusion ou imitation de traitement

Le traitement a un effet sur le groupe contrôle

Exemple: une unité académique promeut un enseignement hybride moderne et attire des étudiants provenant d’une vaste zone géographique. Une unité de contrôle peut également bénéficier de cet effet.
Egalisation compensatoire

Le groupe contrôle observe le groupe expérimental

Exemple: les sujets qui ne reçoivent aucun traitement réagissent en se comportant différemment.

Tableau 17: Obstacles à la validité interne

Une règle efficace consiste à réfléchir et à chercher d’autres explications susceptibles d’expliquer un phénomène. Toutefois, de bons designs de recherche peuvent également permettre de produire une recherche valide. Voyons à présent quelques designs qui tentent de contrôler de tels obstacles à la validité interne.

Design avec groupe contrôle non équivalent

Ce design adopte des comparaisons entre deux groupes contrôle similaires (mais pas équivalents). L’avantage de ce design réside dans son efficacité à détecter d’éventuelles influences de causes extérieures (i.e. des causes différentes des causes liées à l’intervention).

Figure 33: Design avec groupe contrôle non équivalent
Si O2 ― O1 est similaire à O4 ― O3
→ nous pouvons rejeter l’hypothèse selon laquelle O2 ― O1 est du à X,
→ ou nous pouvons corroborer l’effet expérimental de X (Figure 33).

Voici les problèmes et les désavantages possibles de ce design:

  • Mauvais contrôle des tendances naturelles, comme discuté dans le cadre de la série chronologique interrompue.
  • Trouver des groupes équivalents n’est pas facile dans certains contextes «réels».
  • Vous pourriez également rencontrer des effets d’interactions entre les groupes, e.g. l’imitation du groupe expérimental par le groupe contrôle.

Ce design avec groupe contrôle non équivalent n’est qu’un type de design de contrôle. Il est parfois possible d’utiliser des designs de contrôle aléatoires. Nous pouvons également créer deux ou trois designs de facteurs qui peuvent tester les interactions de variables indépendantes (facteurs). La conception et l’analyse de tels designs plus complexes sort cependant du cadre de cette introduction. Pour en savoir plus, vous pouvez consulter les ouvrages de Campbell, Stanley, Cook et Shadish. Par exemple: Experimental and Quasi-Experimental Designs for Generalized Causal Inference

Expérience et effets d’imitation

Voici un exemple d’effet d’imitation (Figure 34). Dans le cadre d’un programme diplômant, nous introduisons une plateforme d’apprentissage dans un seul des cours. Nous nous intéressons alors à trois effets: le coût, la satisfaction des étudiants et le respect des délais en les comparant à un cours similaire donné par un autre enseignant.

Cours A
Introduction d’une plateforme d’apprentissage
Cours B
Pas d’introduction de plateforme
Effet 1:coûts augmente stable comparaison horizontale des résultats
Effet 2: satisfaction des étudiants augmente augmente
Effet 3: respect des délais (pour la remise des travaux) meilleur stable
Figure 34: Exemple d'effet d'imitation

Pour pratiquer:


Pourquoi la satisfaction des étudiants pourrait-elle également augmenter chez les étudiants du cours B?


Série chronologique comparative

L’un des designs de recherche quasi-expérimentale les plus puissants se sert de séries chronologiques comparatives (Figure 35). Ce design est une combinaison de la série chronologique interrompue et du groupe contrôle non équivalent, que nous avons présentés précédemment.

Figure 35: Série chronologique comparative

Ce design est efficace pour contrôler plusieurs obstacles à la validité car il permetde:

  1. comparer différents groupes (situations) et aussi de contrôler d’autres variables intevening;
  2. faire une série de pré- et de post-observations (tests) pour contrôler des tendances naturelles et un effet statistique de type feu de paille ou «éphémère».

Les difficultés de ce design sont pratiques. Il n’est pas facile (et parfois impossible) de:

  1. trouver des groupes comparables,
  2. trouver des groupes avec plus que un ou quelques cas,
  3. trouver des données (en particulier des données passées ou futures),
  4. de contrôler des interventions simultanées au point X.

La validité dans les designs quasi expérimentaux

Généralisons à présent la discussion et abordons les problèmes de causalité et leur validité. Selon Campbell & Stanley (1963), il existe quatre types de validité:

Type de validité Explications
Validité interne

«Elle désigne l’aptitude des données collectées à représenter réellement le phénomène étudié. Ceci concerne aussi bien la pertinence du choix des catégories utilisées pour coder les données issues d’une observation systématique que le fait de s’assurer que les traitements appliqués dans une étude expérimentale expliquent bien les changements de comportement manifestés par les sujets (si on peut les expliquer autrement la validité interne n’est pas bonne)». (Buts, types et qualités d’une recherche en éducation, DESTE, UMons)

Elle concerne le design (stratégie d’investigation) de votre recherche

Vous devez démontrer que les causes que vous posez comme causes sont «réelles» et que toute autre explication est fausse.

C’est le type de validité le plus important.
Validité externe

«Elle désigne le degré selon lequel les résultats d’une étude peuvent être généralisés à une population plus large. Cette définition a une signification différente selon qu’on s’inscrit dans le paradigme quantitatif ou qualitatif. Ainsi, dans une recherche quantitative, c’est la conception même de la recherche basée sur un échantillonnage représentatif des sujets qui va assurer, dans une mesure plus ou moins grande, cette validité externe.» (Buts, types et qualités d’une recherche en éducation, DESTE, UMons)

La question à vous poser: pouvez-vous généraliser?

Ceci n’est pas facile, car vous pourriez ne pas avoir conscience de variables «favorables», e.g. le «bon enseignant» avec lequel vous avez travaillé ou le fait que les choses étaient bien plus faciles dans votre école privée...

Comment pouvez-vous être certain que vos expériences d’introduction des TIC dans une situation donnée et couronnées de succès seraient également couronnées de succès dans des situations similaires (ou peu similaires)?
Validité statistique ... vos relations statistiques sont-elles significatives? Pour une analyse simple, ce type de validité n’est pas difficile. Faites en sorte d’utiliser les bonnes statistiques et fiez-vous à ces statistiques.
Validité de construction ...est-ce que l’opérationnalisation de vos concepts est solide?

Vos dimensions sont-elles justes?

Vos indicateurs mesurent-ils vraiment ce que vous cherchez à savoir?
Typologie de la validité (Stanley et al.)

Important: Cette typologie est également utile dans d’autres contextes, e.g. des analyses qualitatives structurées ou des designs statistiques. Dans la plupart des autres designs de recherche empirique, vous devez également traiter ces problèmes.

Exemple de travail de recherche quasi-expérimental

Étude de l’apport de la non-linéarité au récit éducatif

Auteur Baptiste Campion, Groupe de recherche en médiation des savoirs (GReMS), , Centre de recherche en communication (RECOM), Université catholique de Louvain (UCL) [2]
Cette recherche a pour objectif d’évaluer l’effet de la non-linéarité d’un récit éducatif sur la construction de représentations. L’hypothèse testée est la prise en compte, dans les représentations de l’univers diégétique et du domaine de connaissance élaborées par le récepteur, des possibilités d’alternatives hypertextuelles présentes dans le récit. Les résultats des expériences, menées sur des enfants en fin de scolarité primaire, montrent que les alternatives non actualisées ne semblent pas être une variable d’entrée prise en compte dans le traitement de l’information du récit, et amènent à nuancer l’intérêt du récit non linéaire pour la communication des connaissances.(Campion, 2012 [2])

Cet article, qui est en accès libre, décrit deux études. Voici quelques éléments méthodologiques de la première étude.

Les enfants ont été répartis en deux groupes de sujets
condition 1: ont du lire individuellement un récit éducatif linéaire
condition 2: ont du lire un récit non linéaire

Un questionnaire écrit portant sur le récit lu et sur le domaine de connaissanceetait destiné à évaluer la compréhension des enfants du récit et leur compréhension du contenu éducatif. Il comportait quatre questions: «une question de résolution de problème, une question de restitution libre, une épreuve de dessin et une épreuve de définition de termes du domaine de connaissance, expliqués ou non dans l’hypertexte.»

Matériel (citation légèrement abbréviéd)
Les récits éducatifs utilisés consistaient en un petit hypertexte de 15 (pour la version linéaire) à 22 pages-écran (pour la version non linéaire) relatant un phénomène scientifique simple : le mécanisme de formation d’une carie dentaire (notre domaine de connaissance). Ce mécanisme est en principe inconnu des enfants – au moins dans ses détails –, son enseignement ne faisant pas partie du programme scolaire. Le caractère narratif des hypertextes a été garanti par un strict respect de 6 critères caractérisant le texte narratif selon Adam (1999).
Contrôles concernant la validité interne

Un test semblable a été mené auprès de deux autres groupes de sujets : un groupe faisant l’expérience en lisant à la place du récit une explication didactique non narrative, et un groupe de contrôle n’ayant lu aucune explication du domaine de connaissance. Il s’agit, par comparaison avec ces deux groupes de références, de pouvoir imputer les effets observés aux caractéristiques des récits lus par les sujets des conditions 1 et 2. Enfin, la pratique (déclarée) des TIC des participants a été évaluée, pour écarter, lors du traitement des données, les réponses de sujets dont la familiarité avec les technologies numériques apparaîtraient sensiblement différentes de la moyenne de l’échantillon, afin d’éviter d’attribuer des variations dans les représentations des sujets à des difficultés (ou facilités) d’usage du dispositif. Il s’agissait, là aussi, de garantir un échantillon aussi homogène que possible. ([2])

Références et Bibliographie

Ouvrages cités

  1. Cook, Thomas, K. and Campbell, Donald T. (1979). Quasi-Experimentation: Design and Analysis Issues for Field Settings, Houghton Mifflin Company, ISBN 0395307902
  2. 2,0 2,1 et 2,2 Campion Baptiste, « Étude de l'apport de la non-linéarité au récit éducatif », Document numérique 3/2012 (Vol. 15) , p. 49-70 http://dx.doi.org/10.3166/DN.15.3.49-70.

Lectures supplémentaires

  • Campbell D. T., 1957, « Facteurs intéressant la validité des études expérimentales dans les contextes sociaux », pp. 47-61, in : Lemaine G., Lemaine J.-M., dirs, Psychologie sociale et expérimentation, Paris, Mouton, 1969.
  • Grosbois, Muriel (2007),Didactique des langues et recherche expérimentale, Les Cahiers de l'Acedle', numéro 4. PDF
Ce texte discute l'apport des démarches expérimentales et quasi expérimentales dans une discipline spécifique.
  • Herbert, Maud (2005). Petit abrégé pour mieux comprendre la notion de méthode expérimentale et ses enjeux méthodologiques, Université Paris-Dauphine, Résumé/PDF complet
Ce texte comprend une petite section sur la démarche quasi-expérimentale
  • Thierry Meyer, Validité externe et méthode expérimentale,
  • Rey, Olivier (2014). Entre laboratoire et terrain : comment la recherche fait ses preuves en éducation. Dossier de veille de l’IFÉ, n°89, janvier. Lyon : ENS de Lyon. http://edupass.hypotheses.org/13
Ce texte discute globalement de la question de "evidence-based" education et discute plusieurs approches.