Organiser des données avec tidyr
Cet article est en construction: un auteur est en train de le modifier.
En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.
Introduction
Tidyr est un paquet de R faisant partie de l'écosystème Tidyverse qui permet d'organiser des données afin de faciliter la manipulation, la visualisation, ou la modélisation. Dans cet article, le terme organisation des données est une traduction limitative du correspondant tidy en anglais. Par organisation il faut en effet entendre plus en général les différentes actions qui permettent de préparer un ou plusieurs jeu de données : nettoyer les données, structurer les variables/colonnes, exclure les données manquantes, etc.
Cette page intègre des éléments techniques du fonctionnement du paquet tidyr avec des éléments théoriques et pratiques sur les principes du tidy data (Wickham, 2014) selon une perspective liée au parcours pensée computationnelle avec R.
Note sur la version
Cette page se réfère à la version 1.1.x
de Tidyr (voir versionnage sémantique). Les informations contenus abordent cependant des principes fondamentaux du tidy data et devraient par conséquent rester valides pour des versions successives.
Prérequis
L'article nécessite de connaissances de base de R, notamment au niveau des structures de données de type data.frame
ou tibble
(i.e. organisées en lignes et colonnes). La lecture préalable de l'article Introduction à Tidyverse est également recommandée.
Installation et chargement
tidyr est l'un des paquets qui composent l'écosystème Tidyverse. Il peut donc être installé deux deux manières :
- Paquet individuel
- Paquet global Tidyverse
Paquet tidyr individuel
Pour installer seulement le paquet tidyr, la commande est la suivante :
# Installation individuelle
install.packages("tidyr")
Pour utiliser le paquet il faudra à ce moment le charger :
library(tidyr)
Paquet global Tidyverse
Si vous installez le paquet global Tidyverse, tidyrest installé automatiquement.
# Installation de Tidyverse
install.packages("tidyverse")
L'installation de l'écosystème Tidyverse est conseillée, car tidyr peut s'intégrer facilement avec d'autres paquets de l'écosystème Tidyverse comme dplyr pour manipuer des données ou ggplot2 pour les visualiser.
Pour utiliser le paquet vous pouvez à ce moment choisir si :
- Charger seulement tidyr
library(tidyr)
- Charger tous les paquets de Tidyverse
library(tidyverse)
Voir Introduction à Tidyverse pour plus de détails.
Tidy data
Dans l'introduction à Tidyverse, les principes à la base du concept de tidy data (Wickham, 2014) ont déjà été abordés de manière conceptuelle. Dans cette section, les données tidy sont abordées de manière plus pragmatique.
Organisation de données tidy
De manière très concrète, un jeu de données tidy est basé sur trois principes :
- Chaque colonne représente une variable. En général, une variable est l'opérationalisation d'un concept, c'est-à-dire une représentation quantifiable ou qualifiable d'un concept théorique.
- Chaque ligne représente une observation. En général, une observation se compose de plusieurs variables qui partagent un élément commun, par exemple le même participant.
- Chaque cellule - résultant du croisement entre colonnes et lignes - représente une et une seule valeur, c'est-à-dire la quantité ou qualité de la variable/colonne pour l'observation/ligne données.
Selon Wickham (ibid), toute autre organisation de données corresponde à messy data, c'est-à-dire le contraire du tidy. Plusieurs exemples de jeu de données qui ne sont pas tidy, mais qui sont assez fréquents en data science, sont disponibles dans la page Tidy data de la documentation officielle du paquet.
Situations qui nécessitent l'organisation des données
Les principes du tidy data sont assez simple à la base, mais il arrive souvent que des jeux de données ne les respectent pas pour différentes raisons, par exemple :
- Le jeu de données est mis à disposition par d'autres entités qui ont un système de gestion de données non-tidy
- Les données sont extraites depuis un outil (e.g. Qualtrics ou Limesurvey) qui aplatit toutes les données indépendamment de la structure sémantique
- Les données sont extraite de manière automatisée ou semi-automatisée et peuvent donc avoir une structure pas très bien définie au départ (e.g. avec du web scraping, notamment du web scrapng avec R)
- Les donnés sont distribués dans plusieurs outils ou modalités de récolte différentes, avec des structures de données différentes
- On se rend compte à posteriori qu'une meilleure manière de structurer les données (e.g. pour les partager avec d'autres chercheurs) est possible et utile
Dans ces cas, et d'autres qui ne sont sûrement pas listés, il est utile d'adopter un flux d'organisation basé sur le code pour les raisons expliquées dans la section suivante.