Manipuler des données avec dplyr

De EduTech Wiki
Aller à la navigation Aller à la recherche

Introduction

dplyr est un paquet de R faisant partie de l'écosystème Tidyverse utile pour manipuler des données en format rectangulaire (i.e. lignes et colonnes). Il utilise une grammaire basée sur les actions les plus fréquentes dans la manipulations des données comme par exemple filtrer, agréger, sélectionner, transformer, etc. Le paquet dplyr peut être utilisé dans plusieurs contextes, comme par exemple :

Cet article propose un survol des manipulations les plus fréquentes, ainsi que des ressources complémentaires.

Prérequis

L'article nécessite de connaissances de base de R. La lecture de l'article Introduction à Tidyverse est également recommandé.

Installation

dplyr est l'un des paquets qui composent l'écosystème Tidyverse. Il peut donc être installé deux deux manières :

  • Paquet individuel
  • Paquet global Tidyverse

Paquet dplyr individuel

Pour installer seulement le paquet dplyr, la commande est la suivante :

# Installation individuelle
install.packages("dplyr")

Pour utiliser le paquet il faudra à ce moment le charger :

library(dplyr)

Paquet global Tidyverse

Si vous installez le paquet global Tidyverse, dplyr est installé automatiquement.

# Installation de Tidyverse
install.packages("tidyverse")

L'installation de l'écosystème Tidyverse est conseillée, car dplyr peut s'intégrer facilement avec d'autres manipulations sur les données comme par exemple la visualisation des données avec ggplot2.

Pour utiliser le paquet vous pouvez à ce moment choisir si :

  • Charger seulement dplyr
    library(dplyr)
    
  • Charger tous les paquets de Tidyverse
    library(tidyverse)
    

Voir Introduction à Tidyverse pour plus de détails.

Example de base

Il est utile de commencer directement par un simple example de base pour dévoiler les aspects principaux de dplyr qui seront abordés de manière plus détaillée dans la suite de l'article.

Verbs pour manipuler des données

dplyr propose une grammaire pour effectuer des opérations sur des données organisées en une ou deux tableaux, c'est-à-dire organisées en lignes et colonnes, idéalement en suivant les principes du Tidy data (Wickham, 2014, p. 4) :

  1. Chaque variable forme une colonne
  2. Chaque observation forme une ligne
  3. Chaque unité d'observation forme un tableau