Manipuler des données avec dplyr

De EduTech Wiki
Aller à la navigation Aller à la recherche

Introduction

dplyr est un paquet de R faisant partie de l'écosystème Tidyverse utile pour manipuler des données en format rectangulaire (i.e. lignes et colonnes). Il utilise une grammaire basée sur les actions les plus fréquentes dans la manipulations des données comme par exemple filtrer, agréger, sélectionner, transformer, etc. Le paquet dplyr peut être d'ailleurs utilisé également dans le cadre des la visualisation des données avec R, notamment en combinaison avec le paquet ggplot2. Cet article propose un survol des manipulations les plus fréquentes, ainsi que des ressources complémentaires.

Prérequis

L'article nécessite de connaissances de base de R. La lecture de l'article Introduction à Tidyverse est également recommandé.

Installation

Vous pouvez installer dplyr individuellement ou à travers le paquet écosystème Tidyverse :

  • Individuellement :
    Installation avec le code install.packages("dplyr") et chargement du paquet avec le code library(dplyr)
  • Écosystème :
    Installation avec le code install.packages("tidyverse") et chargement du paquet avec le code library(tidyverse)

Voir Introduction à Tidyverse pour plus d'informations sur l'installation des paquets de l'écosystème Tidyverse.