« Manipuler des données avec dplyr » : différence entre les versions
m (→Prérequis) |
|||
Ligne 59 : | Ligne 59 : | ||
Voir [[Introduction à Tidyverse]] pour plus de détails. | Voir [[Introduction à Tidyverse]] pour plus de détails. | ||
== | == Données gapminder utilisées dans le tutoriel == | ||
Pour faciliter la compréhension des différents éléments de dplyr, cet article utile un jeu de données issue du [https://github.com/jennybc/gapminder paquet <code>gapminder</code>], créé par Jennifer Bryan, qui est un extrait des données collectées par la fondation [https://www.gapminder.org/ gapminder], un institution indépendante qui utilise les données afin de modifier des mauvaies représentations sur des phénomènes globaux. | |||
Cette section explique comment installer les paquets et fourni une description des donnée disponibles. Au moment de l'écriture de ce tutoriel, la version du paquet <code>gapminder</code> (Bryan, 2017) est la <code>0.3.0</code> (voir [[versionnage sémantique]]). Le paquet propose des données sur plusieurs nations du monde. À la version 0.3.0, les données sont disponibles jusqu'en 2007. | |||
=== Installation === | |||
=== Description des données === | |||
== Verbs pour manipuler des données == | == Verbs pour manipuler des données == |
Version du 1 septembre 2021 à 15:27
Introduction
dplyr est un paquet de R faisant partie de l'écosystème Tidyverse utile pour manipuler des données en format rectangulaire (i.e. lignes et colonnes). Il utilise une grammaire basée sur les actions les plus fréquentes dans la manipulations des données comme par exemple filtrer, agréger, sélectionner, transformer, etc. Le paquet dplyr peut être utilisé dans plusieurs contextes, comme par exemple :
- le nettoyage des données brutes importées avec R
- l'agrégation de données depuis une ou plusieurs sources
- interroger les données à travers des filtres complexes
- l'organisation de données pour l'affichage dans des reports, pages web, etc.
- la mise en forme de données pour visualisation des données avec R, notamment en combinaison avec le paquet ggplot2.
Cet article propose un survol des manipulations les plus fréquentes, ainsi que des ressources complémentaires.
Prérequis
L'article nécessite de connaissances de base de R, notamment au niveau des structures de données de type data.frame
ou tibble
(i.e. organisées en lignes et colonnes). La lecture préalable de l'article Introduction à Tidyverse est également recommandée.
Installation
dplyr est l'un des paquets qui composent l'écosystème Tidyverse. Il peut donc être installé deux deux manières :
- Paquet individuel
- Paquet global Tidyverse
Paquet dplyr individuel
Pour installer seulement le paquet dplyr, la commande est la suivante :
# Installation individuelle
install.packages("dplyr")
Pour utiliser le paquet il faudra à ce moment le charger :
library(dplyr)
Paquet global Tidyverse
Si vous installez le paquet global Tidyverse, dplyr est installé automatiquement.
# Installation de Tidyverse
install.packages("tidyverse")
L'installation de l'écosystème Tidyverse est conseillée, car dplyr peut s'intégrer facilement avec d'autres manipulations sur les données comme par exemple la visualisation des données avec ggplot2.
Pour utiliser le paquet vous pouvez à ce moment choisir si :
- Charger seulement dplyr
library(dplyr)
- Charger tous les paquets de Tidyverse
library(tidyverse)
Voir Introduction à Tidyverse pour plus de détails.
Données gapminder utilisées dans le tutoriel
Pour faciliter la compréhension des différents éléments de dplyr, cet article utile un jeu de données issue du paquet gapminder
, créé par Jennifer Bryan, qui est un extrait des données collectées par la fondation gapminder, un institution indépendante qui utilise les données afin de modifier des mauvaies représentations sur des phénomènes globaux.
Cette section explique comment installer les paquets et fourni une description des donnée disponibles. Au moment de l'écriture de ce tutoriel, la version du paquet gapminder
(Bryan, 2017) est la 0.3.0
(voir versionnage sémantique). Le paquet propose des données sur plusieurs nations du monde. À la version 0.3.0, les données sont disponibles jusqu'en 2007.
Installation
Description des données
Verbs pour manipuler des données
dplyr propose une grammaire pour effectuer des opérations sur des données organisées en une ou deux tableaux, c'est-à-dire organisées en lignes et colonnes, idéalement en suivant les principes du Tidy data (Wickham, 2014, p. 4) :
- Chaque variable forme une colonne
- Chaque observation forme une ligne
- Chaque unité d'observation forme un tableau