Analyse de la variance

De EduTech Wiki
Aller à la navigation Aller à la recherche
Manuel de recherche en technologie éducative
Module: Analyse de données quantitatives
◀▬▬▶
brouillon débutant
2021/04/02

Introduction

L’analyse de la variance (Anova) et sa variante multivariée Manova est un des outils les plus utilisés par les expérimentateurs. Elle est également courante dans la recherche quasi-expérimentale et dans les enquêtes par sondage, comme le montre l’exemple suivant.

Exemple imaginaire:

Question: la présence ou l’absence de l’utilisation des TIC influence-t-elle les notes?

  • X a une influence sur Y si les moyennes obtenues par les différents groupes (e.g. les utilisateurs des TIC contre les non-utilisateurs des TIC) diffèrent de manière significative.

X est une condition expérimentale (par conséquent une variable nominale) et Y est généralement une variable à intervalle. La signification s’améliore lorsque:

  • Les moyennes des groupes X sont différentes (plus elles sont éloignées, mieux c'est)
  • La variance au sein des groupes X est basse (certainement plus basse que la variance générale), en d’autres termes: les groupes devraient être homogènes

Prémisses:

Les valeurs des populations doivent être normalement distribuées. Les outils statistiques proposent généralement d'effectuer un test de normalité avant l'Anova (Shapiro-Wilk). L'analyse de variance est toutefois

relativement robuste aux écarts de la normalité et reste envisageable. Il convient cependant d'être attentif aux sujets extrêmes a fortiori dans les échantillons de petite taille ou d'envisager une analyse de variance non-paramétrique en complément.

Les coefficients de l'analyse de la variance

Il y a plusieurs coefficients statistiques importants, principe introduit dans principes de base d'analyse statistique.

Structure de la relation

  • Les moyennes (M) définissent l'effet. Plus les moyennes des groupes sont écartées, plus on a un effet intéressant.
  • Ecarts-types (SD ou ET) pour chaque groupe et pour l’échantillon global: comme nous l’avons expliqué ailleurs, l’écart-type est une mesure de dispersion et indique à quelle distance de la moyenne l’individu type se situe. Pour qu'on puisse parler d'une différence importante (et significative) des groupes, l'écart-type de chaque groupe devrait être petit (en tout cas plus petit que l'écart-type de l'échantillon global)

Force de la relation et variance expliquée

  • Eta est un coefficient de corrélation (une alternative à la comparaison et discussion des moyennes et écart-types). En gros, il résume l'information "distance entre moyennes" et "homogénéité de groupes"
  • Eta2 mesure la variance expliquée.

Seuil de signification

  • Le test T permet de calculer le taux de signification pour 2 groupes. On obtient une probabilité P qui indique dans quelle mesure la relation serait due au hasard. En règle générale, p doit être inférieur à 0.05 (5%).
  • Le test F (une extension du T) permet de calculer le taux de signification pour 2 ou plusieurs groupes

Dans SPSS

Dans SPSS, l’analyse de la variance peut être trouvée à deux endroits:

  • Analyse-> comparer les moyennes
  • Modèles linéaires généraux (à éviter si vous êtes un/e débutant/e)

Présentation des résultats

Selon le domaine scientifique, il faut présenter plus ou moins de détails. En psychologie, la norme APA exige que l'on indique également les degrés de liberté (Degrees of freedom, df), c'est-à-dire le nombre de valeurs qui peuvent varier.

L'exemple suivant prend les données du premier tableau ci-dessus:

Le type de population d'enseignants explique la fréquence des différents types d’activités d’apprentissage [ F(1,84) = 6.486, p=0.013 ]

Les degrés de liberté (valeurs qui peuvent varier) sont 1 (on a deux groupes) et 84 (on a 85 participants).

Exemple - Différences entre les enseignants formés et les futurs enseignants en formation

Dans cet exemple, nous souhaitons savoir si les futurs enseignants en formation sont différents des enseignants formés en ce qui concerne les activités en classe. Nous appelons cette variable indépendante (explicative) "population d'enseignants".

Nous avons trois types de variables dépendantes (à expliquer):

  • La fréquence des différents types d’activités d’apprentissage (COP1)
  • La fréquence des activités d’exploration en dehors de la classe (COP2)
  • La fréquence du travail individuel des étudiants (COP3)

Chacune de ces variables a été mesurée à l’aide d’un indice. Les indices COP1, COP2 et COP3 se situent entre 0 (peu) et 2 (beaucoup). Pour chaque variable, nous comparons les deux groupes (population d'enseignants) à la moyenne.

Population d'enseignants COP1

Fréquence des différents types d’activités d’apprentissage

COP2

Fréquence des activités d’exploration en dehors de la classe

COP3

Fréquence du travail individuel des étudiants

1 Futur enseignant en formation Moyenne 1.528 1.042 .885
N 48 48 48
Ecart-type .6258 .6260 .5765
2 Enseignant formé Moyenne 1.816 1.224 1.224
N 38 38 38
Ecart-type .3440 .4302 .5893
Total Moyenne 1.655 1.122 1.035
N 86 86 86
Ecart-type .5374 .5527 .6029

Tableau 5: Différences entre enseignants formés et futurs enseignants en formation - Ecart-types et moyennes

Les écarts-types dans les groupes sont plutôt élevés (en particulier pour les étudiants), ce qui est une mauvaise chose: cela signifie que parmi les étudiants les individus sont très différents.

Examinons à présent le tableau des analyses de variance et ses mesures d’associations. Nous voyons tout d’abord le seuil de signification, qui devrait être inférieur à 0.05.

Variables dépendantes expliquées par la population Somme des carrés df Carré moyen F Sig.
COP1 Fréquence des différents types d’activités d’apprentissage
X Population d'enseignants
Entre les groupes 1.759 1 1.759 6.486 .013
Dans les groupes 22.785 84 .271
Total 24.544 85
COP2 Fréquence des activités d’exploration en dehors de la classe
X Population d'enseignants
Entre les groupes .703 1 .703 2.336 .130
Dans les groupes 25.265 84 .301
Total 25.968 85
COP3 Fréquence du travail individuel des étudiants

X Population d'enseignants

Entre les groupes 2.427 1 2.427 7.161 .009
Dans les groupes 28.468 84 339
Total 30.895 85

Tableau 6: Différence entre enseignants formés et futurs enseignants en formation – tableau des analyses de variance

Comme vous pouvez le constater, la variable COP2 ne peut pas s’expliquer par la variable « Population d'enseignants » (futurs en enseignants en formation vs. enseignants formés) , car Sig. = 0.13. Les deux autres relations sont statistiquement significatives et par conséquent interprétables.

Les mesures d’association (Eta) sont également relativement faibles, comme le montre le tableau suivant:

Eta Eta au carré
Var_COP1 Fréquence des différents types d’activités d’apprentissage * Population .268 .072
Var_COP2 Fréquence des activités d’exploration en dehors de la classe * Population .164 .027
Var_COP3 Fréquence du travail individuel des étudiants * Population .280 .079

Résultat: les associations sont faibles, de même que la variance expliquée. La relation « COP2 » n’est pas significative. Nous pouvons affirmer que les enseignants (formés) utilisent plus d’activités d’apprentissage que les futurs enseignants en formation et qu’ils organisent plus fréquemment des travaux individuels pour les étudiants.