« Analyse de régression et corrélations de Pearson » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
(Page créée avec « {{tutoriel |fait_partie_du_cours=Manuel de recherche en technologie éducative |fait_partie_du_module=Analyse de données quantitatives |page_precedente=Analyse de la vari... »)
 
mAucun résumé des modifications
Ligne 7 : Ligne 7 :
|difficulté=débutant
|difficulté=débutant
}}
}}
== Le principe de la régression =
 
== Le principe de la régression et de la correlation de Pearson ==


Nous avons déjà présenté le principe de la régression linéaire. Il permet de calculer une tendance entre une variable explicative X et une variable à expliquer Y. Ces variables doivent toutes deux être des variables quantitatives.
Nous avons déjà présenté le principe de la régression linéaire. Il permet de calculer une tendance entre une variable explicative X et une variable à expliquer Y. Ces variables doivent toutes deux être des variables quantitatives.


L’analyse de régression cherche à établir une droite qui visualise l'évolution de Y en fonction des valeurs de X. Cette droite maximise la prédiction (linéaire) minimise les résidus.
L’analyse de régression cherche à établir une droite qui résume l'évolution de Y en fonction des valeurs de X. Cette droite maximise la prédiction (linéaire) minimise les résidus. Nous avons déjà introduit la figure suivante dans le chapitre d'introduction aux analyses quantitatives


'''Tableau 58 (c’est une figure en réalité) : principe de la régression linéaire'''
[[Fichier:Regression-structure.png|vignette|600px|none|Structure d'une régression linéaire (la droite)|Principe de la régression linéaire]]


DONNEES = droite de régression ''prédite + résidus'' (données non expliquées)
<code>DONNEES = droite de régression ''prédite + résidus'' (données non expliquées)</code>


'''Régression et coefficients de corrélation'''
== Régression et coefficients de corrélation==


* Les deux '''''coefficients de régression''''' synthétisent le modèle, i.e. ils décrivent mathématiquement la droite.
* Ceux '''coefficients de régression''' synthétisent le modèle, i.e. ils décrivent mathématiquement la droite.


<blockquote>Y = A + X * B
<code>Y = A + X * B</code>


B représente la pente de la droite
* B représente la pente de la droite
* A est une constante et représente l’écart par rapport au 0


A est une constante et représente l’écart par rapport au 0
Il existe ensuite 2 coefficients qui mesurent la relation et la portée du modèle:
</blockquote>
* La '''corrélation de Pearson (r)''' synthétise la force de la relation
* La '''''corrélation de Pearson (r)''''' synthétise la force de la relation
* '''R au carré (R<sup>2</sup>)''' représente la variance expliquée
* '''R au carré (R<sup>2</sup>)''' représente la variance expliquée


Exemple 4. Age de l’enseignant et activités en dehors de la classe
== Exemple: Age de l’enseignant et activités en dehors de la classe ==


Nous souhaitons répondre à la question: ''l’âge de l’enseignant explique-t-il les activités d’exploration en dehors de la classe''? I.e. est-il plus probable que ce soient des enseignants plus âgés qui organisent des activités en dehors de la classe?
Nous souhaitons répondre à la question: ''l’âge de l’enseignant explique-t-il les activités d’exploration en dehors de la classe''? I.e. est-il plus probable que ce soient des enseignants plus âgés qui organisent des activités en dehors de la classe?
Ligne 39 : Ligne 40 :
Le résumé du modèle de régression produit par SPSS est présenté de la façon suivante:
Le résumé du modèle de régression produit par SPSS est présenté de la façon suivante:


{|
{|class="datatable"
!R
!R
!R au carré
!R au carré
Ligne 51 : Ligne 52 :
Nous pouvons observer qu’il existe une faible corrélation (R=0.316) et que la relation est significative (.027)
Nous pouvons observer qu’il existe une faible corrélation (R=0.316) et que la relation est significative (.027)


{|
{|class="datatable"
|+Age de l’enseignant et activités d’exploration en dehors de la classe – résumé du modèle de régression
!R
!R
!R au carré
!R au carré
Ligne 69 : Ligne 71 :
|}
|}


'''Tableau 8: âge de l’enseignant et activités d’exploration en dehors de la classe – résumé du modèle de régression'''


Les coefficients du modèle de régression sont les suivants:
Les coefficients du modèle de régression sont les suivants:


{|
{|class="datatable"
!Age
!Age
!.013
!.013
Ligne 85 : Ligne 86 :
|}
|}


{|
{|class="datatable"
|+Age de l’enseignant et activités d’exploration en dehors de la classe – modèle de régression
!
!
!Coefficients
!Coefficients
Ligne 116 : Ligne 118 :
|1.999
|1.999
|.053
|.053
|.316<span id="_Ref226981630" class="anchor"><span id="_Toc227903119" class="anchor"></span></span>
|.316
|-
|-
|Variable dépendante: COP2 Fréquence des activités d’exploration en dehors de la classe
|Variable dépendante: COP2 Fréquence des activités d’exploration en dehors de la classe
|}
|}


'''Tableau 9: âge de l’enseignant et activités d’exploration en dehors de la classe – modèle de régression'''


D’un point de vue formel, la relation est:
D’un point de vue formel, la relation est:


Activités d’exploration en dehors de la classe = .705 + 0.013 * AGE
* Activités d’exploration en dehors de la classe = <code>.705 + 0.013 * AGE</code>


Elle peut également être interprétée de la façon suivante: «on s’attend à ce que seules les personnes de plus de 99 ans puissent obtenir un résultat de 2». Voici un nuage de points pour cette relation:
Elle peut également être interprétée de la façon suivante: «on s’attend à ce que seules les personnes de plus de 99 ans puissent obtenir un résultat de 2». Voici un nuage de points pour cette relation:

Version du 1 septembre 2015 à 11:30

Manuel de recherche en technologie éducative
Module: Analyse de données quantitatives
◀▬
brouillon débutant
2015/09/01


Le principe de la régression et de la correlation de Pearson

Nous avons déjà présenté le principe de la régression linéaire. Il permet de calculer une tendance entre une variable explicative X et une variable à expliquer Y. Ces variables doivent toutes deux être des variables quantitatives.

L’analyse de régression cherche à établir une droite qui résume l'évolution de Y en fonction des valeurs de X. Cette droite maximise la prédiction (linéaire) minimise les résidus. Nous avons déjà introduit la figure suivante dans le chapitre d'introduction aux analyses quantitatives

Principe de la régression linéaire

DONNEES = droite de régression prédite + résidus (données non expliquées)

Régression et coefficients de corrélation

  • Ceux coefficients de régression synthétisent le modèle, i.e. ils décrivent mathématiquement la droite.

Y = A + X * B

  • B représente la pente de la droite
  • A est une constante et représente l’écart par rapport au 0

Il existe ensuite 2 coefficients qui mesurent la relation et la portée du modèle:

  • La corrélation de Pearson (r) synthétise la force de la relation
  • R au carré (R2) représente la variance expliquée

Exemple: Age de l’enseignant et activités en dehors de la classe

Nous souhaitons répondre à la question: l’âge de l’enseignant explique-t-il les activités d’exploration en dehors de la classe? I.e. est-il plus probable que ce soient des enseignants plus âgés qui organisent des activités en dehors de la classe?

  • Variable indépendante X: âge de l’enseignant
  • Variable dépendante Y: fréquence des activités d’exploration organisées en dehors de la classe

Le résumé du modèle de régression produit par SPSS est présenté de la façon suivante:

R R au carré R au carré corrigé Erreur de l’estimation standard Corrélation de Pearson Sig. (unilatéral) N

Nous pouvons observer qu’il existe une faible corrélation (R=0.316) et que la relation est significative (.027)

Age de l’enseignant et activités d’exploration en dehors de la classe – résumé du modèle de régression
R R au carré R au carré corrigé Erreur de l’estimation standard Corrélation de Pearson Sig. (unilatéral) N
.316 .100 .075 .4138 .316 .027 38


Les coefficients du modèle de régression sont les suivants:

Age .013 .006 .316 1.999 .053 .316
Variable dépendante: COP2 Fréquence des activités d’exploration en dehors de la classe
Age de l’enseignant et activités d’exploration en dehors de la classe – modèle de régression
Coefficients Coefficients standard t Sig. Corrélations
B Erreur standard Beta d’ordre zéro
(Constante) .706 .268 2.639 .012
Age .013 .006 .316 1.999 .053 .316
Variable dépendante: COP2 Fréquence des activités d’exploration en dehors de la classe


D’un point de vue formel, la relation est:

  • Activités d’exploration en dehors de la classe = .705 + 0.013 * AGE

Elle peut également être interprétée de la façon suivante: «on s’attend à ce que seules les personnes de plus de 99 ans puissent obtenir un résultat de 2». Voici un nuage de points pour cette relation:

Graphique (figure sans légende)

En regardant ce graphique, on s’aperçoit qu’il n’est pas nécessaire de recourir à des coefficients statistiques pour constater que la relation est plutôt faible et que la prédiction indique qu’il faudra compter 100 ans pour en arriver là .