Analyse factorielle et analyse en composantes principales

De EduTech Wiki
Version datée du 4 septembre 2015 à 18:25 par Daniel K. Schneider (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche
Manuel de recherche en technologie éducative
Module: Analyse exploratoire et réduction de données
◀▬▬▶
brouillon débutant
2015/09/04

Analyse factorielle et analyse en composantes principales

L’analyse factorielle et l’analyse en composantes principales transforment une matrice des corrélations de variables pouvant être potentiellement corrélées en un nombre plus petit de facteurs, que l’on appelle les composantes principales. Comme l’analyse typologique, l’analyse factorielle réduit les dimensions. Les composantes identifient les variables sous-jacentes (latentes). L’analyse factorielle peut également identifier quelles variables «vont ensemble».

La première composante décrit le plus possible la variabilité des données, et chaque composante qui suit explique le plus de variabilité restante possible.

Exemple familiarité avec les TIC

Voici un exemple avec les données du programme PISA 2006 réalisé avec de jeunes Suisses, dont nous avons déjà parlé dans le chapitre sur les statistiques descriptives. La composante du questionnaire sur la familiarité avec les TIC comprenait plus de 30 questions. Parmi elles, 16 questions visaient à déterminer l’aptitude des jeunes à réaliser certaines tâches TIC. Voici la question 5 et quelques sous-questions qui en découlent:

Q5 Quelle est votre aptitude à réaliser chacune de ces tâches sur un ordinateur?

  1. Bavarder en ligne
  2. Utiliser des logiciels pour déceler des virus et s’en débarrasser
  3. Editer des photos numériques ou d’autres images graphiques
  4. Créer une base de données (e.g. à l’aide de Microsoft Access)
  5. Copier des données sur un cd (e.g. graver un cd de musique)
  6. Déplacer des fichiers d’un endroit à l’autre sur l’ordinateur
  7. Chercher des informations sur internet
  8. Télécharger des fichiers ou des programmes depuis internet
  9. Joindre un fichier à un e-mail
  10. Utiliser un logiciel de traitement de texte (e.g. pour rédiger une dissertation pour l’école)
  11. Utiliser un tableur pour réaliser un graphique
  12. Créer une présentation (e.g. à l’aide de Microsoft PowerPoint)
  13. Télécharger de la musique depuis internet
  14. Créer une présentation multimédia (avec son, images, vidéos)
  15. Ecrire et envoyer des e-mails
  16. Créer une page web

Les différentes réponses possibles étaient les suivantes:

  1. Je peux aisément faire cela par moi-même
  2. Je peux faire cela avec l’aide de quelqu’un
  3. Je sais ce que cela signifie mais suis incapable de le faire
  4. Je ne comprends pas ce que cela signifie

La matrice des corrélations (qui n’est pas présentée ici) de ces 16 fois 15 relations montre que la plupart de ces variables sont corrélées. A l’aide d’une analyse des composantes principales, nous avons extrait quatre facteurs, ce qui explique environ 62% de la variance totale, comme le montre le tableau suivant:

Variance totale expliquée (aptitudes au TIC – PISA 2006)

Variance totale expliquée

Composante

Sommes des rotations des saturations au carré

Total

% de variance

% cumulatifs

1

2.777

17.357

17.357

2

2.634

16.462

33.820

3

2.311

14.444

48.263

4

2.223

13.896

62.159

Méthode d’extraction: analyse des composantes principales.

Le tableau suivant montre les corrélations entre chaque variable et les quatre facteurs extraits

Matrice des composantes avec compétences subjectives aux TIC (PISA 2006)

Rotation de la matrice des composantes

 

Composante

 

1

2

3

4

IC05Q01 Aptitude - Bavarder IC5a

.269

.075

.727

.231

IC05Q02 Aptitude - Virus IC5b

.653

.331

.173

.063

IC05Q03 Aptitude – Editer des photos IC5c

.566

.357

.159

.287

IC05Q04 Aptitude – Base de données IC5d

.441

.599

-.095

.027

IC05Q05 Aptitude – Copier des données sur CD IC5e

.714

.134

.194

.297

IC05Q06 Aptitude – Déplacer fichiers IC5f

.463

.113

.163

.644

IC05Q07 Aptitude – Rechercher des information sur internet IC5g

.162

.015

.390

.664

IC05Q08 Aptitude – Télécharge des fichiers IC5h

.584

.130

.359

.304

IC05Q09 Aptitude – Joindre des fichiers à un e-mail IC5i

.326

.249

.523

.381

IC05Q10 Aptitude – Traitement de texte IC5j

.118

.252

.187

.734

IC05Q11 Aptitude - Tableur IC5k

.056

.712

.029

.350

IC05Q12 Aptitude - Présentation IC5l

.067

.730

.117

.279

IC05Q13 Aptitude - Télécharger musique IC5m

.579

.129

.535

.036

IC05Q14 Aptitude - Multimédia IC5n

.352

.652

.258

-.009

IC05Q15 Aptitude - E-mails IC5o

.098

.161

.753

.379

IC05Q16 Aptitude – Page web IC5p

.274

.592

.360

-.131

Méthode d’extraction: analyse des composantes principales.

 Méthode de rotation: Varimax avec normalisation Kaiser.

Voici des graphiques de composantes qui visualisent la position de chaque variable par rapport à deux composants

Graphique des composantes pour les facteurs 1 et 2
Graphique des composantes pour les facteurs 1 et 3

En regardant cette matrice des composantes et les graphiques de composantes, nous pouvons mettre des noms sur ces variables sous-jacentes nouvellement trouvées.

  1. La composante 1 peut être nommée: compétences subjectives en téléchargement
  2. La composante 2 peut être nommée: compétences subjectives dans l’utilisation des outils de production
  3. La composante 3 peut être nommée: compétences subjectives dans l’utilisation d’internet

Pour pratiquer:


  1. En observant le tableau 14 et les graphiques de composantes des figures 8 et 9, pouvez-vous expliquer pourquoi nous avons choisi de nommer ainsi ces composantes?
  2. Etes-vous d’accord avec ces noms et pourquoi?
  3. Pouvez-vous proposer un nom pour la composante 4?


Pour aller plus loin

.....