Les boîtes à moustache

De EduTech Wiki
Aller à la navigation Aller à la recherche
Manuel de recherche en technologie éducative
Module: Analyse exploratoire et réduction de données
◀▬▬▶
brouillon débutant
2015/09/01

Analyse exploratoire des données à l’aide de boîtes à moustaches

L’analyse exploratoire des données peut être définie comme un ensemble de techniques, mais aussi comme une philosophie. Si l’on se réfère au manuel du NIST, l’analyse exploratoire des données est une approche/philosophie pour l’analyse des données qui utilise une variété de techniques (généralement graphiques) visant à maximiser la connaissance d’un ensemble de données, à découvrir la structure sous-jacente, à extraire des variables importantes, à détecter des valeurs atypiques éventuelles et des anomalies, à tester des hypothèses sous-jacentes, à développer des modèles parcimonieux et à déterminer des conditions de facteurs optimaux. Selon John Tukey, comme l’explique Wikipédia, les objectifs de l’analyse exploratoire des données sont de:

  • suggérer des hypothèses sur les causes des phénomènes observés
  • évaluer des déductions sur lesquelles s’appuient les inférences statistiques
  • valider le choix d’outils et de techniques statistiques appropriés
  • fournir une base pour la collecte de données supplémentaires au moyen de sondages ou d’expériences.
Exemple de boîte à moustaches (Boxplot)

La boîte à moustaches est une méthode efficace de présentation graphique de données numériques. Elle décrit les informations suivantes: la plus petite observation (échantillon minimum), le quartile 1 (25%), la médiane (50%), le quartile 3 (75%) et la plus grande observation (échantillon maximum). La boîte à moustaches indique également les valeurs atypiques éventuelles. Elle est construite de bas en haut, du quartile inférieur au quartile supérieur. Les moustaches connectent la boîte aux plus petites et aux plus grandes valeurs qui ne sont pas des valeurs atypiques éventuelles.

Par conséquent, dans une distribution normale, l’échantillon entier est représenté entre les moustaches. Les valeurs atypiques éventuelles (reportez-vous au quartile 3, mais pas aussi loin que les valeurs atypiques éventuelles extrêmes) – extrêmes ou modérées – sont des observations qui sont distantes du reste de l’échantillon. Elles ne sont pas représentées dans les moustaches. Les valeurs atypiques éventuelles extrêmes sont des observations qui se situent en dehors de la boîte à moustaches, à une distance de plus de trois fois l’écart interquartile (EI: différence entre les quartiles 1 et 3); ils sont indiqués dans la figure 5 par une étoile. Les valeurs atypiques éventuelles modérées sont des observations qui se situent à plus de 1,5 fois l’EI depuis le quartile 1 ou 3, mais pas aussi loin que les valeurs atypiques éventuelles extrêmes; elles sont indiquées dans la figure 5 par des points.

Représentation des valeurs atypiques éventuelles

Afin d’interpréter une boîte à moustaches, le chercheur regarde les valeurs numériques des trois quartiles, qui représentent respectivement 25%, 50% et 75% de l’échantillon, et regarde la forme globale de la boîte et des moustaches pour obtenir les indications sur la symétrie ou l’asymétrie et les valeurs atypiques éventuelles.

Selon Benjamini (1998, p. 257) une boîte à moustaches représente une synthèse des données en cinq informations cruciales identifiables en un coup d’œil: la mesure de position, la dispersion, l’asymétrie et la longueur de la moustache. La mesure de position se caractérise par la ligne de séparation sur la médiane (ainsi que par le milieu de la boîte). La dispersion se définit par la longueur de la boîte à moustaches (ainsi que par la distance entre les extrémités des moustaches et l’écart). L’asymétrie correspond à la déviation de la ligne médiane du centre de la boîte à moustaches par rapport à la longueur de la boîte (ainsi que par la longueur de la moustache supérieure par rapport à la longueur de la moustache inférieure, et par le nombre d’observations individuelles de chaque côté). La longueur de la moustache correspond à la distance entre les extrémités des moustaches par rapport à la longueur de la boîte à moustaches (et au nombre d’observations marquées spécifiquement).

Nous recommandons l’utilisation de la boîte à moustaches dans les domaines des recherches innovantes et des recherches orientées design, e.g. pour présenter des avis d’utilisateurs sur un nouveau concept de cours qui utilise un environnement technologique, ou pour présenter des données objectives extraites des données enregistrées par le système (log) ou de la base de données du logiciel Portalware.

Exemple: Avis de l’utilisateur sur le support tutoriel

Source: Barbara Class, Study of a blended socio-constructivist conference interpreters trainers training course empowered by an activity based, collaborative learning environment, PhD Thesis (draft). TECFA, University of Geneva, 2008.
Avis de l’apprenant sur le support tutoriel (Class, 2009)

Cette boîte à moustaches montre que dans le cas d’étude 1, la distribution relative à l’indice correspondant au support tutoriel, que nous n’allons pas expliquer dans ce cas, est élevée. L’indice varie entre 2.50 (à mi-chemin entre pas d’accord et plus ou moins d’accord) et 5 (tout à fait d’accord). L’apprenant type est d’accord (médiane = 4) avec le fait que le corps enseignant l’a stimulé et encouragé dans son apprentissage. Dans le cas d’étude 2, la forme générale de la boîte à moustaches est identique, mais la distribution est moins importante. Dans les deux cas d’étude, les moustaches sont asymétriques, les moustaches inférieures étant bien plus longues que les moustaches supérieures, et les observations sont négativement asymétriques. E.g. dans le cas d’étude 1, les résultats montrent que 25% des apprenants sont plutôt pas d’accord avec le fait que le corps enseignants les ont stimulés et encouragés dans leur apprentissage, 25% sont tout à fait d’accord, et 50% sont d’accord.