Principes de base d'analyse statistique
Trouver la structure
Le but de l’analyse statistique est relativement simple: trouver/révéler une structure dans les données. Ce principe peut être exprimé par deux formules synonymes:
DONNEES = STRUCTURE + NON-STRUCTURE
DONNEES = VARIANCE EXPLIQUEE + VARIANCE NON EXPLIQUEE
DONNEES = RELATION + VARIANCE NON EXPLIQUEE
Exemple: analyse de régression simple
DONNEES = droite de régression prédite + résidus (données non expliquées)
L’analyse de régression cherche à établir une droite qui permettra de maximiser la prédiction et de minimiser les résidus.
Figure 86: Structure de l’analyse de régression
Etapes de l’analyse statistique
Voyons à présent ce que nous entendons par analyse statistique et ce que vous devez faire dans ce cas. Dans ce chapitre, nous allons nous intéresser aux étapes qui suivent les premiers points de l’analyse:
# Nettoyez vos données
|
---|
Tableau 1: Principales étapes de l’analyse statistique
Remarque: avec un bon programme d’analyse de données statistiques, il est facile d’effectuer plusieurs étapes en une opération.
Types de coefficients statistiques
Chaque analyse statistique produit différents types de coefficients, i.e. des chiffres qui résument certains types d’information. Assurez-vous toujours d’utiliser uniquement des coefficients appropriés pour vos données. Il y a quatre types principaux de coefficients, que vous trouverez dans la plupart des méthodes d’analyse:
Type de coefficient | |
---|---|
# Force d’une relation | Les coefficients vont généralement de -1 (relation négative totale) à +1 (relation positive totale). 0 signifie aucune relation. |
# Structure (tendance) d’une relation | Résume une tendance |
# Pourcentage de variance expliquée | Indique le degré de structure de votre modèle |
# Seuil de signification de votre modèle | Calcule la probabilité que votre relation soit une distribution hasardeuse, i.e. qu’il n’y ait pas de relation entre les variables.
Typiquement, en sciences sociales, un seuil de signification inférieur à 5% (0,05) est acceptable. N’interprétez pas de données qui se situent au-dessus! |
Tableau 2: Types de coefficients statistiques
Ces quatre types sont mathématiquement liés: e.g., le seuil de signification ne dépend pas uniquement de la taille de votre échantillon, mais également de la force d’une relation.
Aperçu des méthodes statistiques
Les méthodes d’analyse de données statistiques peuvent être catégorisées en fonction des types de données. Le tableau ci-dessous présente des méthodes d’analyse bivariée courantes pour une variable X (explicative) indépendante et pour une variable Y (à expliquer) dépendante.
Variable Y dépendante | |
---|---|
Quantitative (à intervalles) | |
Variable X indépendante (explicative)
|
Quantitative |
Qualitative |
Tableau 3: Méthodes statistiques bivariées courantes
Un tableau similaire peut être créé pour une analyse multivariée, mais nous n’allons pas présenter ce sujet.
Variable Y dépendante | |
---|---|
Quantitative (à intervalles) | |
Variable X indépendante (explicative) | Quantitative |
Qualitative |
Tableau 4: Analyse multivariée courante