Visualisation des données avec ggplot2

De EduTech Wiki
Aller à la navigation Aller à la recherche

Cet article est en construction: un auteur est en train de le modifier.

En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.



Introduction

ggplot2 est un paquet de R très utilisé pour la création de représentations visuelles pour différentes finalités (e.g. Data Science, journalisme, gouvernements, etc.). Le paquet est basé sur une grammaire des graphiques qui décompose les différents éléments d'une représentation visuelle afin de pouvoir les déterminer en fonction des données à véhiculer. Grâce à ce système, il est possible de créer des graphiques de manière flexible et adaptée aux intentions spécifiques de chaque représentation.

ggplot2 est un paquet qui existe depuis plusieurs années et autour duquel il existe un vaste nombre de ressources et extensions pour des finalités spécifiques. Nous proposons dans cet article quelques exemples que nous analyserons afin d'illustrer les principes computationnelles à la base du fonctionnement de ggplot2 dans la philosophie des ressources en lien avec la pensée computationnelle avec R. Cet article complémente de manière plus technique la page :

Prérequis

Cet article se réfère en principe aux ressources qui composent pensée computationnelle avec R. Une connaissance de base sur le fonctionnement d'un langage de programmation, notamment en relation avec l'utilisation de fonction, est nécessaire. Nous conseillons également l'utilisation de RStudio pour répliquer les exemples de code dans l'article, même si tout environnement basé sur R est suffisant.

Installation

ggplot2 est l'un des paquets qui composent l'écosystème Tidyverse. Il peut donc être installé deux deux manières :

  • Paquet individuel
  • Paquet global Tidyverse

Paquet ggplot2 individuel

Pour installer seulement le paquet ggplot2, la commande est la suivante :

# Installation individuelle
install.packages("ggplot2")

Pour utiliser le paquet il faudra à ce moment le charger :

library(ggplot2)

Paquet global Tidyverse

Si vous installez le paquet global Tidyverse, ggplot2 est installé automatiquement.

# Installation de Tidyverse
install.packages("tidyverse")

L'installation de l'écosystème Tidyverse est conseillée, car ggplot2 peut s'intégrer facilement avec d'autres manipulations sur les données comme selection, filtrage, agrégation, etc.

Pour utiliser le paquet vous pouvez à ce moment choisir si :

  • Charger seulement ggplot2
    library(ggplot2)
    
  • Charger tous les paquets de Tidyverse
    library(tidyverse)
    

Voir Introduction à Tidyverse pour plus de détails.

Anatomie computationnelle d'un graphique

Au niveau computationnel, un graphique est le résultat de la combinaison entre données d'Input et instructions qui s'occupent de déterminer les détails spécifique de l'Output. Nous proposons donc d'analyser un graphique en fonction du schéma de base Input-Computation-Output qui est commun à l'ensemble des ressources de la pensée computationnelle avec R.

Format de Input

ggplot2 requière que les données passées en Input soient dans un format rectangulaire (i.e. organisé par lignes et colonnes), implémenté dans des structures de données de type dataframe (format R de base) ou tibble (format de Tidyverse). Il s'agit en général de formats qui sont déjà utilisés dans la plupart des analyses en sciences sociales, notamment lorsque les données sont importées à travers les fonctions de base de R ou les fonctions de l'écosystème Tidyverse. Dans la plupart de cas, donc, il n'est pas nécessaire de faire des transformations. En revanche, il n'est pas possible d'utiliser ggplot2 avec des simples vecteurs - i.e. créés avec la fonction c() - car il ne s'agit pas d'un format rectangulaire.

Le premier argument demandé par la fonction principale ggplot() est donc la structure de données qui sera utilisée pour construire le graphique. À ce propos, il faut savoir que les lignes et les colonnes de la structure de données présentent une différence importante vis-à-vis de leur traitement par la fonction ggplot() :

  • La structure de données ne doit pas présenter seulement les colonnes qui seront utilisées pour construire le graphique, car la fonction ggplot() permet de définir depuis quelle(s) colonne(s) doivent être récupérées les données afin de définir les esthétiques du graphique (voir section suivante sur la computation).
  • En revanche, la structure de données doit déjà présenter seulement les lignes qui sont concernées par la visualization graphique. En d'autres termes, si vous voulez afficher dans le graphique seulement une partie des entrées de votre structure (i.e. seulement une sélection des lignes), il faudra filtrer les données en amont.

Étant données que ggplot2 fait partie de l'écosystème Tidyverse, la fonction principale ggplot() peut être combinée avec le pipe %>% comme dans les exemples de code suivants :

library(tidyverse)

# Générer un jeu de données avec 100 observations de 3 variables aléatoires avec valeur entre 1 et 50.
my_data <- data.frame(
  x = runif(100, 1, 50),
  y = runif(100, 1, 50),
  z = runif(100, 1, 50)
)

# Données passées sans manipulation préalable
my_data %>%
  ggplot(aes(x = x, y = z)) +
  geom_point()

# Données passées avec filtrage préalable, seulement les observations où x > 40 sont affichées dans le graphique
my_data %>%
  filter(x > 40) %>%
  ggplot(aes(x = x, y = z)) +
  geom_point()

Ce mécanisme peut être très utile surtout dans le cadre des visualizations exploratoires, car vous pouvez afficher le même graphique mais à chaque fois avec des critères de filtrage différents pour avoir une meilleure connaissance de vos données.

Computation d'une représentation visuelle

En utilisant des logiciels point-and-click qui créent des graphiques grâce à des manipulations plus ou moins imposées, on peut facilement sous-estimer la computation qui est déclenchée lors de la création d'une représentation graphique. En fonction de la complexité du graphique et des données que nous souhaitons afficher, des calculs sont effectués par exemple pour :

  • Implémenter les esthétiques du graphiques dans des formes
    Comme on l'a vu plus haut et, surtout, dans la page Introduction à la visualisation des données avec R, les données sont associées avec des propriétés graphiques telles que la position, la couleur, l'opacité, la taille, etc. La computation d'un graphique doit donc implémenter concrètement ces associations.
  • Agréger des données
    L'un des avantages des graphiques comparé aux données brutes ou à un tableau consiste à créer des patterns, comme par exemple des regroupements ou des séparations, qui véhiculent de l'information. Sur le même graphique, il est possible de combiner plusieurs agrégation de données à la fois.
  • Créer des indices et références visuelles
    Pour faciliter la compréhension de l'information, les graphiques affichent souvent des éléments supplémentaires qui aident à mieux cerner les données, comme par exemple les légendes ou les unités des axes.
  • Adapter le contenu aux limites du canvas
    Dans les représentations statiques, le graphique occupe un espace - à l'écran ou sur papier - limité, une sorte de toile (ou en termes plus techniques, un canvas). L'ensemble de l'information affiché par le graphique doit donc être ajusté afin que tout puisse être contenu dans les limites du canvas.

Format de Output

La computation du graphique peut aboutir à différents formats de Output qui peuvent différer en fonction du support nécessaire pour les visualiser, leur finalité, ou encore leur extension temporaire. Nous pouvons identifier quatre type d'Output possibles :

  • Une image matricielle
    Ce type d'image est composé de pixels individuel, dont la couleur de chaque pixel détermine l'affichage globale de l'image. Dans ce contexte, ggplot2 s'occupe de déterminer comment colorer les pixels qui font partie de la représentation visuelle et de les mettre à disposition à travers une image matricielle, dont les extensions les plus fréquentes sont .png ou .jpg.
  • Une image vectorielle ou dessin vectoriel
    Ce type de graphique est déterminé à travers de formules mathématiques qui déterminent l'affichage de patterns qui compose le dessin. Dans ce contexte, ggplot2 s'occupe de déterminer les formules qui représentent les différents éléments qui composent le graphique et les mettre à disposition à travers une image vectorielle, dont le format le plus utilisé est SVG, avec extension .svg.
  • Une animation
    Une animation est créé à travers la succession de différents images qui varient progressivement l'une de l'autre afin de provoquer dans le système visuel l'illusion du mouvement. ggplot2 ne propose pas out of the box la possibilité de créer des représentations graphiques animées, mais il existe des extensions pour animer un graphique créé avec ggplot2. Dans ce contexte, ggplot2 plus l'extension s'occupent de déterminer les images à passer en succession pour déterminer l'effet d'animation. Il existe plusieurs formats pour afficher une animation. Pour les images, le format .gif est l'un des plus utilisés. Si non, il existe la possibilité de créer une vidéo à partir d'une animation. Une description technique d'une animation est disponible dans la page Animation avec JavaScript. Même s'il s'agit d'un langage différent, les concepts techniques sont les mêmes.
  • Une représentation visuelle interactive
    Type de représentation qui permet aux utilisateurs de modifier l'affichage en fonction de leurs actions. Comme pour les animations, ggplot2 ne propose pas cette fonctionnalité out of the box, mais il existe encore une fois des extensions ou paquets externes qui permet de rendre interactif un graphique créé avec ggplot2. Dans ce contexte, gpplot2 et l'extension s'occupent non seulement de générer les éléments visuels, mais également d'intercepter et répondre aux interactions de l'utilisateur (cliquer, survoler avec la souris, ...). Les représentations visuelles interactives sont en général rendues disponibles à travers des pages web, donc avec du HTML5, CSS et JavaScript. La transposition se fait en général automatiquement, donc une connaissance de ces éléments n'est pas nécessaire, mais peut néanmoins s'avérer utile pour des modifications ou intégration dans des contextes plus articulés (e.g. sites web). Une description technique de l'interactivité est disponible dans la page Interactivité avec JavaScript. Le langage est différent, mais les concepts restent les mêmes.

Sauvegarder un graphique

ggplot2 est particulièrement indiqué dans le cadre de la génération automatique de document (voir Introduction à Rmarkdown). Néanmoins, il est également possible de sauvegarder le output des graphes en différents formats matriciels (.png, .jpg, .pdf, ...) ou vectoriels. Le format vectoriel SVG, notamment, permet éventuellement de modifier ultérieurement le graphique, par exemple dans le contexte de la physicalisation de données.

Il existe deux manières différentes pour sauvegarder une représentation visuelle : manuellement, ou - idéalement - directement à travers le code, donc automatiquement.

Sauvegarde manuelle

La manière la plus simple pour sauvegarder un graphique manuellement est à travers le tab Plot de l'interface de RStudio qui permet de sauvegarder toutes les représentations visuelles, non seulement celles créées avec ggplot2. Le bouton Export permet de :

  1. Sauvegarder le graphique en tant que image en plusieurs formats
  2. Sauvegarder le graphique en tant que PDF
  3. Copier le graphique pour pouvoir le coller directement dans un logiciel de traitement de texte ou de présentation

Si on choisit d'exporter le graphique en tant que image, une nouvelle fenêtre modale s'affiche à l'écran :

Exporter un graphique à travers l'interface de RStudio

À travers cette fenêtre modale on peut choisir :

  • Le format de l'image (e.g. .png, .jpg, .svg, ...)
  • Le dossier dans lequel sauvegarder le fichier
  • Le nom à donner au fichier
  • Hauteur et largeur de l'image
La sauvegarde manuelle peut être utile pour exporter rapidement des graphiques d'exemple, mais dans la plupart des cas, c'est mieux d'adopter la bonne pratique de la sauvegarde automatisée.

Sauvegarde automatisée

La sauvegarde automatisée d'un graphique consiste à écrire une instruction à travers le code qui sauvegarde la représentation visuelle dans un fichier. Ce fichier sera automatiquement mise à jour à chaque exécution du code et par conséquent le fichier va refléter toujours la toute dernière version du graphique (e.g. changement de couleurs, titres des axes, thème, ...), sans avoir à la sauvegarder manuellement à chaque modification.

La sauvegarde de représentations graphiques créés avec ggplot2 se fait à travers la fonction ggsave(). Cette fonction sauvegarde une représentation graphique par rapport au dossier de travail (i.e. working directory) actuel de R :

  • Si vous utilisez un projet RStudio, la working directory est la racine du projet (voir également Premier projet avec RStudio)
  • Si vous utilisez RStudio, mais non un projet, vous pouvez voir votre working directory affichée en haut du panneau de la Console
  • Dans tous le cas, vous pouvez connaître votre working directory avec la commande getwd()

Pour changer la working directory, nous conseillons à des utilisateurs novices de R de créer un projet en RStudio.

Une fois contrôlé votre dossier de travail, vous pouvez utiliser la fonction ggsave() de différentes manières. Pour les illustrer, nous allons d'abord fournir un simple code pour créer des données simulées à utiliser pour un graphique :

 1 library(ggplot2)
 2 
 3 # Simulation de données sur les heures de lecture livre papier vs. e-book
 4 sim_data <- tibble(
 5   condition = sample(c("book", "e-book"), size = 200, replace = TRUE),
 6   hours_reading = rnorm(200, mean = 100, sd = 15)
 7 )
 8 
 9 # Créer un graphique qui compare les données groupées par condition et l'associer à une référence symbolique
10 compare_graphique <- ggplot(sim_data, aes(x = condition, y = hours_reading, color = condition)) +
11   geom_jitter(alpha = 0.3) +
12   labs(
13     x = NULL,
14     y = "Heures passées à lire"
15   ) +
16   theme_bw() +
17   theme(
18     legend.position = "none"
19   )

Une fois le graphique disponible, la fonction ggsave() peut être configurée à travers un nombre variable de paramètres, dont les plus importants sont :

  • filename : nom du fichier à donner
  • plot : quelle représentation graphique sauvegarder

Dans notre cas, donc, on peut sauvegarder notre graphique de la manière suivante :

ggsave(filename = "book-vs-ebook.png", plot = compare_graphique)

Ce code sauvegarde le fichier sous le nom de book-vs-ebook.png, donc en format matricielle. Si on avait utilisé book-vs-ebook.svg, on aurait sauvegardé en format vectorielle. La première fois que vous sauvegardez en format SVG, il est probable que vous devez installer un paquet externe.

Le seule paramètre qui est toujours obligatoire est le nom du fichier filename = avec lequel sauvegarder le graphique. Le nom du fichier peut se composer :

  • Seulement du nom du fichier et de l'extension, par exemple compare_book_vs_ebook.png ou compare_book_vs_ebook.svg. Dans ce cas, le fichier sera sauvegardé au même niveau de la working directory actuelle. L'extension choisi va d'ailleurs déterminer dans quel format sauvegarder l'image
  • Ajouter un chemin relatif (ou absolu, mais cette option est déconseillée) avant le nom du fichier et l'extension, par exemple figures/compare_book_vs_ebook.png. Dans ce cas, le sous-dossier figures doit être déjà disponible dans la working directory actuelle.
    • En alternative au nom composé du fichier, vous pouvez aussi utiliser le paramètre path. À ce moment, vous explicitez seulement le nom du fichier dans filename :
      ggsave(
        filename = "compare_book_vs_ebook.png", 
        plot = compare_graphique, 
        path = "figures"
      )
      

D'autres paramètres de la sauvegarde peuvent être définit, par exemple la largeur et l'hauteur, ainsi que l'unité de référence :

ggsave(
  filename = "book-vs-ebook_16_9.png", 
  plot = compare_graphique,
  width = 16,
  height = 9,
  units = "cm"
)

À noter que vous pouvez parfois lire dans la documentation ou des tutoriels une version minimaliste de la fonction qui dans notre cas serait similaire à celle-ci :

ggsave("book-vs-ebook.png")

Comme vous pouvez le noter, cette invocation de la fonction n'utilise pas le nom du paramètre filename. En plus, la référence compare_graphique à laquelle nous avons associé notre graphique n’apparaît nul part. Ceci s'explique par le fait que, sans aucune référence explicite avec le paramètre plot =, la fonction ggsave() sauvegarde le dernier objet disponible créé avec ggplot(), qui est accessible à travers la fonction last_plot(). Cette opération marche même si le graphique n'a pas été associé à une référence symbolique. Mais pour faciliter la lecture du code, nous conseillons d'indiquer explicitement quel plot la fonction est en train de sauvegarder.