« RStudio » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Ligne 372 : Ligne 372 :
plot(sim_data$hours_reading, sim_data$hours_writing)
plot(sim_data$hours_reading, sim_data$hours_writing)
</source>
</source>
L'exécution de ce code va peupler la partie de l'interface consacrée aux représentations graphiques, nommée '''Plots''', avec les trois graphiques, mais dont seulement le dernier est affiché :
[[Fichier:RStudio visualization représentations graphiques.png|600px|vignette|néant|Visualization des représentations graphiques dans l'interface de RStudio]]
Pour voir les deux autres graphiques, il suffit d'utiliser les flèches à droite et à gauche pour défiler d'un graphique à l'autre. D'autres boutons sur l'interface permettent de :
* Agrandir le graphique actif
* Exporter le graphique (même s'il faudrait plutôt utiliser [[Introduction à la visualization des données avec R|la sauvegarde à travers le code]])
* Effacer le graphique actif de la visualization
* Effacer tous les graphiques créés pendant la session active
Pour plus de détails, y compris des bonnes pratiques sur l'utilisation de [[R]] pour les visualizations graphiques, voir :
* {{ Goblock | [[Introduction à la visualization des données avec R]] }}


=== Aide intégré dans l'interface ===
=== Aide intégré dans l'interface ===

Version du 10 mars 2020 à 15:31

Cet article est en construction: un auteur est en train de le modifier.

En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.



Introduction

RStudio est un integrated development environment (IDE) pour R, open-source et multi-plateforme, développé et maintenu par une Public Benefit Corporation, la RStudio, PBC, qui fournit le logiciel gratuitement ou commercialement.

RStudio se compose de plusieurs fonctionnalités qui intègrent la simple ligne de commande disponible à travers la version de base de R, comme par exemple :

  • Support pour l'écriture de code (complètement automatique et mise en évidence de la syntaxe)
  • Aide pour l'importation et la visualization de données
  • Affichage et sauvegarde de représentations graphiques (graphiques, images, ...)
  • Organisation et gestion des fichiers à travers des projets
  • Création de report en différents formats (HTML, PDF, ...)

De ce fait, RStudio représente l'une des composantes principales pour la mise en place d'un environnement de travail avec R. Dans cette page, nous proposons un survol du logiciel et ses caractéristiques principales.

Cadres d'utilisation de RStudio

RStudio est un élément intégrant de la pensée computationnelle avec R, une collection de ressources destinée à des chercheurs ou formateurs qui souhaitent utiliser R comme outil pratique et outil cognitif. Dans ces contextes, RStudio peut servir à  :

Note sur la version

La plupart du contenu de cet article fait référence à la version 1.2.x de RStudio (voir versionnage sémantique).

Installation

RStudio est disponible en trois versions :

  • RStudio Desktop : logiciel desktop qui nécessitent d'une installation en local
  • RStudio Server : application serveur qui nécessite l'installation sur un serveur distant et qui est ensuite accessible depuis un navigateur web
  • RStudio Cloud : plateforme gérée par la même société qui permet d'accéder à RStudio en tant que Software as a Service (Saas), actuellement en phase beta (voir Versionnage sémantique)

Pour une discussion plus approfondie des trois différentes options, voir :

Dans cette section, nous fournirons les informations nécessaires à l'installation en local et quelques ressources pour l'installation serveur.

Installer RStudio Desktop

RStudio Desktop est un logiciel multi-plateforme, disponible pour Windows, Linux et Mac. Il existe en version gratuite, mise à disposition sous-licence AGPL, et en licence commerciale pour les entreprises.

RStudio Desktop exploite la version de R disponible sur l'ordinateur. Il faut donc d'abord installer R pour pouvoir utiliser RStudio Desktop.

Si vous avez plusieurs versions de R installées sur votre machine, vous pouvez choisir laquelle utiliser avec RStudio à travers les options de configuration (voir plus bas).

Mise à part la nécessité d'avoir R déjà installé sur sa propre machine, l'installation de RStudio Desktop ne présente pas d'aspects particuliers par rapport à une normale installation de toute autre logiciel :

  1. Pointez vers la page de download officiel
  2. Choisissez la version gratuite du logiciel (RStudio Desktop Free)
  3. Acceptez la version proposée par le bouton de download ou téléchargez le fichier d'installation depuis la liste All installers pour votre système d'exploitation

Installer RStudio Server

L'installation de la version server de RStudio nécessite de compétences techniques au niveau de la gestion de serveur, et peut donc intéresser principalement des ingénieur systèmes ou des responsables techniques d'une équipe de recherche. Néanmoins, elle peut-être également une solution pour des formateurs qui veulent proposer l'utilisation de RStudio aux étudiants, sans qu'ils aient à installer tous les composantes nécessaires sur leurs ordinateurs. Dans ce cas, la difficulté concerne plutôt la mise en place du serveur, l'installation de RStudio server est plutôt simple à ce moment.

Pour plus d'informations voir la section sur l'environnement serveur dans la page :

Présentation de l'interface

Fonctionnalités principales

RStudio met à disposition plusieurs fonctionnalités dont l'objectif est d'aider l'utilisateur à utiliser R de la meilleure manière, en exploitant ses possibilités et en limitant certains de ses défauts. Nous proposons ici quelques fonctionnalités principales qui pourraient intéresser surtout des personnes qui s'approchent pour la première fois à l'écosystème de R.

Projets

Probablement la fonctionnalité la plus importante mise à disposition par RStudio concerne la création de projets. Un projet en RStudio est une collection de fichiers qui partagent un lien sémantique entre eux, par exemple :

  • Ils font tous partie de la même analyse de données (e.g. article scientifique, enquête, mémoire, thèse, ...)
  • Ils composent un paquet de R à partager avec d'autres
  • Ils sont destinés pour quelqu'un d'autre, notamment à travers la publication sur une plateforme de partage (e.g. tutoriel, leçon, devoir, ...)

Les projets en RStudio permettent d'organiser les différents fichiers (données, scripts, graphiques, ...) afin de faciliter leur utilité et durée de vie dans le temps. Pour maximiser l'utilité des projets, cependant, il faut intégrer également quelques bonnes pratiques au niveau de la nomination et arborescence des dossiers et fichiers qui font partie du projet. Certains de ces pratiques sont abordées dans l'article premier projet avec RStudio qui présente un tutoriel pas à pas avec un cas spécifique en tant qu'exemple. Ici, nous proposons simplement les aspects techniques relatifs à la création des projets à travers l'interface RStudio.

Créer un nouveau projet

Pour créer un projet, utilisez le menu :

File > New Project ...

En alternative, vous pouvez utiliser le bouton correspondant dans la barre des icônes en bas du menu principale. Le résultat est le même.

Créer un nouveau projet avec RStudio

Il existe trois manières de créer un projet avec RStudio :

  1. New Directory
    Créer un nouveau projet dans un nouveau dossier, complètement vide. Option à choisir si vous démarrez votre projet de zéro. L'étape de création est accompagnée avec la possibilité de choisir parmi des templates (voir plus bas).
  2. Existing Directory
    Créer un projet dans un dossier déjà existant, notamment avec déjà des fichiers. Option à choisir si vous avez déjà mis en place une structure pour votre projet (e.g. arborescence des données, scripts, ...) ou si vous souhaitez transformer en projet une ancienne analyse.
  3. Version Control
    Créer un projet en utilisant un système de contrôle de version comme source (e.g. GitHub, GitLab, ...). Cette option nécessite d'avoir un logiciel de contrôle de versions installé sur votre machine (voir configuration plus bas)

Nouveau projet à partir de zéro

Si vous choisissez l'option New Directory, l'écran suivant vous propose une liste de templates pour la création de types de projets différents. Par exemple, vous pouvez choisir parmi :

Différents types de nouveaux projets
  • New Project
    Choix générique pour la création d'un nouveau projet, sans structure préétablie. C'est l'option la plus fréquente si votre projet n'a pas des caractéristiques particulières.
  • R Package
    Création d'un paquet de R. Ce choix crée automatiquement une structure de dossier compatible avec la création et publication d'un paquet de R.

La visualization d'autres choix possibles peut dépendre des paquets ou extensions de RStudio que vous avez installés. Certains paquets, en effet, offrent des fonctionnalités qui nécessitent de structures de dossiers et des fichiers particulières (e.g. Blog, Livre numérique, ...). Ces structures peuvent être créées automatiquement à travers le template correspondant.

Définir le nom du dossier et la position du projet dans l'arborescence des fichiers de votre machine.

Indépendamment du type de projet, l'étape suivante consiste à créer un nouveau dossier à un endroit sur votre machine. À quel endroit placer votre projet dépend de votre organisation interne des fichiers. Par contre, pour le nom du dossier, il est bien de se tenir à quelques règles de base :

  • Utilisez un nom de dossier sémantique qui permet de reconnaître la fonction du projet
  • Utilisez seulement des lettres minuscules, chiffres et à la limite les caractères - et _.
  • Évitez les majuscules, lettres avec accents, caractères spéciaux, ainsi que les espaces

Selon le type de projet que vous avez choisi, l'écran de création peut vous proposer d'autres options. Une option commune à plusieurs types de projet concerne la possibilité d'initialiser un repository avec un système de version de contrôle, comme par exemple Git (voir configuration plus bas).

Une fois cliqué sur le bouton Create Project, RStudio va créer le dossier dans le chemin indiqué et ouvrir directement le projet dans l'interface du logiciel. Si vous avez choisi un nouveau projet générique, vous aurez un résultat similaire à celui-ci :

Écran d'un nouveau projet générique en RStudio

Vous pouvez noter comme :

  • Le dossier de travail (i.e. working directory) de R est placé automatiquement dans le dossier du projet (voir Console sur la gauche)
  • L'indicateur du projet en haut à droite reporte maintenant le nom de votre dossier, ce qui est d'ailleurs l'une des raisons pour choisir un nom sémantique
  • Vous avez dans le panneau des fichiers un nouveau fichier qui s'appelle nom-de-votre-dossier.Rproj. Si vous cliquez sur ce fichier, vous ouvrez l'écran de configuration du projet lui-même (voir configuration plus bas).

Création de différents types de nouveaux fichiers

Différents types de nouveaux fichiers à créer. La liste peut varier en fonction de paquets externes ou extensions installés.

L'interface de RStudio permet de créer facilement plusieurs types de fichiers qui peuvent être utiles, surtout dans un projet (voir plus haut). Pour créer un nouveau fichier, vous pouvez utilisez le menu principal :

File > New File > ...

En alternative, le menu déroulant â côté de l'icône correspondante à un nouveau fichier propose les mêmes choix de manières graphiquement plus saillante (voir image à droite).

Le type de fichier est déterminé par son extension, et l'extension dans le nom du fichier détermine comment le fichier sera interprété par l'interface de RStudio (e.g. affichage, aide à la syntaxe, commandes supplémentaires, ...). Il est donc fondamental d'associer le bon type d'extension au fichier en fonction de son utilité.

Parmi les types de fichiers à créer figurent :

  • R Script
    Il s'agit de fichiers qui contient des commandes de Input valables dans le langage de programmation R (voir notamment Introduction conceptuelle à R). Ces fichiers ont l'extension .R, par exemple import_data.R. La création de ce type de fichier ouvre directement le nouveau fichier dans la partie Source de l'interface, où on peut tout de suite écrire le code du fichier.
  • R Notebook
    Il s'agit d'un fichier générique qui combine du texte en format Rmarkdown et du code R. L'extension du fichier est .Rmd, par exemple my_stats_course_notes.Rmd.
  • R Markdown...
    Cette option concerne, comme la précédente, des fichiers de type Rmarkdown, donc avec extension .Rmd. Contrairement à l'option R Notebook, cependant, cette option permet de mieux cibler le type de document d'Ouput. En effet, lorsque vous choisissez cette option, une fenêtre modale vous donne la possibilité de mieux cibler votre choix ou des donner des informations supplémentaires :
    Options supplémentaires pour la création d'un fichier Rmarkdown
    Le tab From template peut être particulièrement utile si vous utilisez des paquets externes qui mettent directement à disposition des templates pour des documents de type .Rmd, comme par exemple des canvas pour des articles de journaux scientifiques, des mémoires ou thèses, présentations plus complexes de l'option R Presentation, etc.
  • Shiny Web App...
    Cette option permet de créer des applications web interactives, appelées Shiny Apps à partir de code R.

Aide au codage

RStudio propose des fonctionnalités techniques à support de l'écriture et de l'exécution du code. Nous en proposons ici quelques unes parmi les plus utilisées.

Écrire et exécuter du code depuis un fichier de script

Les fichiers de type R Script permettent de garder trace des instructions nécessaires à atteindre le résultat souhaité. Écrire et sauvegarder ces instructions dans un fichier de script permet de pouvoir le réutiliser dans le temps et obtenir exactement le même résultat à chaque exécution, ce qui présentent plusieurs avantages :

  • Limitations des manipulations humaines faites à l'interface ou dans d'autres logiciels qui ne permettent pas de documenter les changements
  • Possibilité de transmettre tous les passages nécessaires à la production de l'analyse à des personnes tierces (e.g., collègues, superviseurs, reviewers, ...)
  • Partage du code en modalité collaborative, ou même pour chercher de l'aide

Pour créer un nouveau R Script utilisez le menu :

File > New File > R Script

En alternative, utilisez l'icône correspondante dans la barre des icônes sous le menu principale ou le raccourcis de clavier Ctrl + Shift + N (Windows) ou Cmd + Shift + N (Mac).

Un fichier R Script est un simple fichier de texte avec extension .R qui s'ouvre en lecture et écriture dans l'espace Source de votre interface (en général en haut à gauche, mais vous pouvez configurer la disposition, voir plus bas).

L'avantage principale du fichier de script est que vous pouvez écrire facilement plusieurs lignes de code à la fois et décider si, quand et combien de lignes faire évaluer à la fois. Le code évalué sera affiché dans la Console (généralement en bas à gauche). Prenons le code suivant en exemple (également en image) :

sim_data <- data.frame(
  participant = paste0("P", seq(1:100)),
  response_time = runif(100, 1, 60),
  group = sample(c("treatment", "control"), size = 100, replace = TRUE)
)

summary(sim_data)
table(sim_data$group)
Écrire et exécuter du code dans un fichier R Script

Vous pouvez exécuter ce code de différentes manières, que ce soit à travers les boutons en haut à gauche ou, encore mieux, à travers des raccourcis du clavier :

  1. Run Ctrl + Enter (Win) ou Cmd + Enter (Mac)
    Exécuter une ligne à la fois ou une sélection spécifique du code. Vous pouvez tester cette fonctionnalité si vous placez votre curseur dans le code en exemple n'importe où entre les lignes 1 à 5. R Studio est assez malin pour comprendre que les lignes de 1 à 5 font partie d'une seule instruction, même si elle est étalée sur plusieurs lignes. Vous verrez qu'une fois exécuté l'instruction, le curseur va se déplacer automatiquement au début de la ligne 7, ce qui vous permet de lancer tout de suite l'instruction suivante, qui déplace à son tour le curseur à la ligne 8.
  2. Re-run the previous code region Ctrl + Shift + P (Win) ou Cmd + Shift + P (Mac)
    Exécuter à nouveau la même région de code (ligne ou sélection). C'est une option très utile si vous apportez des petits modifications à une partie du code et vous voulez re-évaluer les instructions. Pour essayer :
    • Sélectionnez les lignes 1 à 6 et exécutez-les avec Run simple. Notez dans le sommaire de l'Output dans la Console la valeur à côté de Mean: ...
    • À la ligne 3, changez le chiffre 60 avec 500 et lancez Re-run the previous code region. Les mêmes lignes de 1 à 6 seront exécutées, avec la nouvelle valeur qui modifie les chiffres aléatoires de 1-60 à 1-500. Votre valeur Mean: ... sera à ce moment beaucoup plus élevé.
  3. Source Ctrl + Shift + S (Win) ou Cmd + Shift + S
    Exécute tout le code source du fichier actif, mais n'affiche pas le Output dans la Console.
  4. Source with Echo Ctrl + Shift + Enter ou Cmd + Shift + Enter
    Exécute tout le code source du fichier actif et affiche le Output dans la Console

Écriture du code dans plusieurs fichiers de script

Dès qu'un projet devient plus complexe, le code nécessaire pour atteindre le résultat souhaité peut devenir conséquent. Pour cette raison, il peut être utile de le diviser en plusieurs fichiers qui composent le code source. RStudio permet d'ouvrir en écriture plusieurs fichiers R Script à la fois. De plus, il est possible d'importer le code d'un autre fichier à travers la fonction source(), comme dans le code suivant, également affiché à l'image plus bas :

# Commencer tout fichier source avec les paquets nécessaires
library(tibble)

# Importer du code depuis un autre fichier
source("my-other-source-file.R")

# Ajouter le code propre au fichier
execution_time <- tibble(
  participant = paste0("P", seq(1:20)),
  seconds = runif(n = 20, min = 30, max = 60)
)
Écrire du code dans plusieurs fichiers R Script

Lorsque vous exécuter la totalité du fichier (e.g. Ctrl + Shift + Enter ou Cmd + Shift + Enter), l'interprétation du code va se faire de la manière suivante :

  • Ligne 2 : chargement du paquet tibble() qui a dû être installé au préalable. Il s'agit d'un exemple, ce paquet n'est en aucun cas nécessaire pour étaler le code source sur plusieurs fichiers, mais montre la pratique répandue d'inclure le chargement de paquets externes au début d'un fichier de script ;
  • Ligne 5 : lecture et exécution de tout le contenu du fichier my-other-source-file.R qui se trouve dans le même dossier de travail du fichier de source utilisé, comme par exemple dans le dossier racine d'un projet RStudio (comme dans l'image) ;
  • Ligne suivantes : lecture et exécution du reste du fichier une fois que la source du fichier référé a été complétée.

Veuillez noter que les instructions qui sont dans le fichier en référence (i.e. my-other-source-file.R sont exécutées, mais sans afficher à la console le résultat.

Auto-complétion du code

Lorsque vous écrivez du code dans un fichier R Script, RStudio intercepte les suites de caractères que vous êtes en train de saisir et peut par conséquent anticiper, de manière probabiliste, certaines intentions notamment en relation avec :

  • Les noms de références symboliques présent dans l'environnement
  • Les noms des fonctions

À partir du troisième caractère d'un mot écrit dans un fichier source ou à la console, RStudio propose des référence symboliques qui partagent ces premières lettres. Par exemple, dans la capture d'écran suivante, RStudio propose des options qui partagent les lettres dat... :

Auto-complétion d'une référence symbolique dans le code

Le menu contextuel qui s'affiche à l'écran montre :

  • le nom complète de la référence symbolique
  • l'environnement à laquelle cette référence appartient (e.g. à l'environnement d'un paquet spécifique de R, à l'environnement global, etc.)

Si vous sélectionnez, à travers les flèches haut-bas de votre clavier ou avec la souris, l'une de ces options d'auto-complétion, un info-bulle jaune apparaît sur le côté et affiche davantage de détails sur l'élément sélectionné. En cliquant sur F1, vous pouvez en savoir encore plus (voir Aide intégré dans l'interface plu bas).

Pour accepter l'option et auto-complété ainsi le mot dans votre code, vous pouvez appuyer à choix sur l'une des touches Enter ou Tab.

Veuillez noter que pour bénéficier de l'auto-complétion, les références symboliques visées doivent être connues par l'environnement de la session. Concrètement, ceci signifie que :

  • Pour que les références d'un paquet externe soient prise en considération, il faut que la paquet ait été chargé, c'est-à-dire :
    1. Il faut avoir écrit le code library(nom du paquet externe)
    2. Il faut avoir exécuté le bout de code
  • Pour que vos propres références symboliques soient prises en compte, il faut d'abord exécuter au moins une fois le bout de code dans lequel elles sont déclarée

Suggestions des paramètres d'une fonction

Une autre fonctionnalité, similaire à l'auto-complétion, consiste à obtenir des suggestions sur les paramètres à utiliser dans une fonction. Pour ce faire, écrivez d'abord le nom de la fonction complète et placez le curseur à l'intérieur des deux parenthèses vides. À ce moment, utilisez les touches Ctrl + Espace (Win) ou Cmd + Espace pour faire apparaître la liste des paramètres acceptés par la fonction. À l'image l'exemple de la fonction data.frame().

Suggestion des paramètres acceptés par une fonction.

Comme pour l'auto-complétion, pour pouvoir bénéficier de cette fonctionnalité il faut que la fonction soit d'abord disponible dans l'environnement.

Aide à l'importation des données

Activer l'aide à l'importation de données en cliquant sur un fichier avec extension reconnue comme source de données.

RStudio aide à l'importation de données depuis différentes sources, y compris :

  • Fichiers de texte (.csv, .tsv, .txt)
  • Fichiers Excel
  • Fichiers SPSS
  • Fichiers SAS
  • Fichiers Stata

L'importation peut se faire à travers une interface graphique assez intuitive, qui affiche en même temps le code pour obtenir le résultat affiché à l'écran. Il est conseillé de copier ce code et de l'insérer à l'intérieur d'un fichier R Script afin que par la suite l'importation soit faire de manière automatique à travers le code.

L'aide à l'importation peut être activé de deux manières :

  1. À travers le menu principale File > Import Dataset > ... avec les différentes sources disponibles
  2. En cliquant directement sur un fichier avec une extension reconnue comme source de données directement dans le gestionnaire des fichiers (voir image à côté). À ce moment, RStudio propose automatiquement l'interface correspondante à la source, sans possibilité de choisir comme depuis le menu principale.

Importer des données depuis des fichiers de texte

Les fichiers de texte sont un bon choix comme moyen de stockage et partage de données pour au moins deux raisons fondamentales :

  1. Ils sont compatibles avec plusieurs logiciels et maximisent ainsi la possibilité que d'autres utilisateurs puissent s'en servir ;
  2. Ils sont pratiques au niveau du traçage des changements dans un système de contrôle de version (e.g. Git)

RStudio met à disposition dans le menu principale deux options qui aident l'importation de données depuis des fichiers de texte, avec extensions .csv, .tsv, et .txt :

  • File > Import Dataset > From text (base) ...
  • File > Import Dataset > From text (readr) ...

L'option readr présente quelques avantages importants et nous conseillons donc de se servir de cette option, même si elle nécessite l'installation du paquet readr qui est également contenu dans le paquet global tidyverse de l'écosystème Tidyverse. D'ailleurs, cette option s'active automatiquement si vous importé les données en cliquant directement sur un fichier de texte dans le gestionnaire des fichiers.

L'interface de l'option readr qui s'affiche à l'écran est la suivante :

Interface d'importation avec readr depuis des fichiers de texte

Elle est divisée en 4 zones principales :

  1. File/URL
    Elle permet de sélectionner le fichier source de données. Si vous ouvrez l'interface depuis le menu principale, le bouton sur la droite sera de type Browse, ce qui vous permet de naviguer dans votre gestionnaire de fichiers pour trouver le fichier correspondant. Si vous ouvrez l'interface en cliquant directement sur le fichier, le bouton vous permet simplement de mettre à jour la source. Il est intéressant de noter que readr vous permet d'importer directement des fichiers depuis des URL, ce qui peut être très utile, mais il faut également faire attention à utiliser des sources fiables.
  2. Data Preview
    Elle donne un aperçu de l'organisation des données importées. Si les colonnes ne s'affichent pas correctement, il faudra modifier la région suivante, Import Options. Autrement, si les colonnes sont correctes, vous avez la possibilité de modifier le type de données dans une colonne à travers un menu déroulant que vous pouvez faire apparaître à travers les flèches affichées dans chaque colonne.
  3. Import Options
    Elle permet de configurer certains paramètres pour l'importation de données, à utiliser notamment si la preview des données ne correspond pas au résultat souhaité. Notamment, il est parfois nécessaire de modifier le Delimiter qui différencie une colonne de l'autre.
  4. Code Preview
    Elle adapte en temps réel le code qui est exécuté pour importer les données selon les options définies. Si vous travaillez dans un projet de RStudio et le fichier de texte se trouve à l'intérieur du projet, le chemin de pointage sera automatiquement adapté. Un bouton en haut à droite de la Code Preview permet de copier le code correspondant. Il est conseillé de copier ce code et l'insérer dans un fichier R Script plutôt que de cliquer sur le bouton Import. De cette manière, le code pour importer le fichier sera exécuté automatiquement dans vos instructions. Attention : si vous utilisez une arborescence de fichiers à plusieurs niveau dans votre projet, il faudra adapter le chemin de pointage (voir la section sur les problématiques plus bas dans la page). La fonction View() permet d'afficher les données dans une interface de RStudio qui facilite la lecture, mais elle n'est pas indispensable pour l'importation. Vous pouvez d'ailleurs la désactiver dans la zone Import Options en décochant Open Data Viewer.

Importer des données depuis un fichier Excel

L'importation depuis un fichier Excel est similaire à celle depuis un fichier de texte. Cependant, elle peut créer des problèmes au niveau des formats régionaux d'Excel, ce qui peut rendre la reconnaissance des colonnes plus difficile. Il est conseillé d'éviter ce type d'importation et de transformer en amont un fichier Excel dans un fichier .csv, pour ensuite l'importer en tant que fichier de texte.

Importer des données depuis un autre logiciel d'analyse statistique

À travers le paquet haven de l'écosystème Tidyverse, il est possible d'importer des données depuis des fichiers propriétaires d'autres logiciels d'analyse statistiques tels que SPSS, SAS, ou Stata. L'interface est très similaire à celle pour l'importation de données textuelles :

Importer des données depuis des fichiers d'autres logiciels d'analyse statistique.
  1. File/URL
    Le fichier avec les données peut se trouver sur votre ordinateur ou dans le web. S'il se trouve à l'intérieur du même projet RStudio, le chemin relatif sera adapté. Attention : en cas d'arborescence à plusieurs niveaux de votre projet, le chemin devra être adapté (voir plus bas).
  2. Data Preview
    L'importation tende à maintenir des informations corollaires qui sont souvent disponibles dans d'autres logiciels. Ici par exemple, chaque colonne affiche une description. Ces descriptions peuvent être récupérées dans le code à travers la fonction attr(), avec le paramètre label. Par exemple : attr(students_data$hours_reading, "label") correspond à ""Heures passées à lire le matériel pédagogique".
  3. Import Options
    L'option la plus utile est le format, qui détermine depuis quelle type de fichier - et par extension quel logiciel d'analyse statistique - importer les données. Vous pouvez décochez l'option Open Data Viewer si vous ne souhaitez pas ouvrir les données dans un écran de RStudio plus lisible.
  4. Code Preview
    Selon les détails de l'importation, le code se met à jour automatiquement. Nous conseillons de copier le code et le coller dans un fichier R Script plutôt qu'utiliser le bouton Importer. De cette manière, l'importation de vos données peut se faire automatiquement à chaque exécution du script.

Exportation des données

À l'heure actuelle (mars 2020), RStudio ne propose pas de fonctionnalités particulières dans l'interface pour l'exportation des données. Néanmoins, les données peuvent être exportées à travers des fonctions. Les paquets qui s'occupent d'importer des données (voir point précédent) proposent également des fonctions pour écrire des données, souvent dans un format spéculaire, par exemple :

  • read_csv() vs. write_csv() dans le paquet readr pour le format textuel .csv
  • read_sav() vs. write_sav() dans le paquet haven pour le format compatible avec SPSS
  • etc.

Les fonctions, dans la plupart des cas, acceptent en tant que premier argument la structure de données à sauvegarder et en deuxième le pointage au fichier dans lequel les sauvegarder. Par exemple :

write_csv(x = students_data, path = "path/to/students_data.csv")

Veuillez noter les aspects suivants :

  • le chemin (i.e., path) est relatif au dossier de travail (i.e. working directory), par exemple le dossier racine dans le cadre d'un projet RStudio.
  • si vous sauvegardez dans de sous-dossiers, vous devez les créer en amont

Les aspects liés aux chemins des fichiers peut être au début difficile à gérer, se référer à la section sur les problématiques plus bas pour quelques conseils à ce sujet.

Visualization des représentations graphiques

L'interface de RStudio permet de voir plusieurs représentations graphiques générées à travers le code, toutes au même endroit, et de pouvoir défiler facilement entre l'une et l'autre. Le code suivant génère trois graphiques depuis des données simulées :

sim_data <- data.frame(
  student = paste0("ID-", seq(1:100)),
  age = sample(18:65, 100, replace = TRUE),
  hours_reading = rnorm(100, 50, 15),
  hours_writing = rnorm(100, 100, 25),
  course_satisfaction = sample(1:10, 100, replace = TRUE)
)

# Premier graphique
hist(sim_data$age)

# Deuxième graphique
hist(sim_data$course_satisfaction)

# Troisième graphique
plot(sim_data$hours_reading, sim_data$hours_writing)

L'exécution de ce code va peupler la partie de l'interface consacrée aux représentations graphiques, nommée Plots, avec les trois graphiques, mais dont seulement le dernier est affiché :

Visualization des représentations graphiques dans l'interface de RStudio

Pour voir les deux autres graphiques, il suffit d'utiliser les flèches à droite et à gauche pour défiler d'un graphique à l'autre. D'autres boutons sur l'interface permettent de :

  • Agrandir le graphique actif
  • Exporter le graphique (même s'il faudrait plutôt utiliser la sauvegarde à travers le code)
  • Effacer le graphique actif de la visualization
  • Effacer tous les graphiques créés pendant la session active

Pour plus de détails, y compris des bonnes pratiques sur l'utilisation de R pour les visualizations graphiques, voir :

Aide intégré dans l'interface

Configuration

La configuration de RStudio peut se faire à deux niveaux :

  • Au niveau du fonctionnement global
  • Au niveau des projets individuels

RStudio prévoit plusieurs possibilités de configuration. Nous conseillons de revoir de temps en temps les différents options au fur et à mesure que votre expérience avec le logiciel augmente : il peut y avoir des éléments intéressants, mais qui nécessitent d'une compréhension plus approfondie de l'environnement de travail.

Configuration global

La configuration global concerne chaque utilisation du logiciel, indépendamment du contexte (projet, fichier, ...). Les options globales sont disponibles à travers le menu principal :

Tools > Global Options...

Changer la version de R utilisée

Si vous avez plusieurs versions de R installées sur votre machine, vous pouvez décidez quelle version utiliser avec RStudio à travers le menu :

Tools > Global Options... > General > R version > Change > Choose a specific version of R

À ce moment, les différentes versions reconnues dans votre système sont listées, il suffit de sélectionner celle désirée.

Changer la version de R à utiliser avec RStudio

Activer un système de contrôle de versions

Dans les options globales vous pouvez activer et configurez des systèmes de contrôle de versions. Ces systèmes permettent de garder trace de l'évolution des fichiers dans le temps et doivent déjà être installés sur votre machine. En mars 2019, deux systèmes sont proposés :

  • Git
  • Subversion (abrégé SVN)

Pour activer et configurer un système de contrôle de versions, utilisez le menu :

Tools > Global Options... > Git/SVN

Vous pouvez à ce moment activer l'option en général et configurez les chemins aux exécutables qui permettent de lancer les commandes à travers l'interface de RStudio. Dans la plupart des cas, ces chemins devraient déjà être correctes si vous avez installé les logiciels dans les chemins conseillés, mais si vous avez des difficultés à faire fonctionner le système de contrôle de versions, c'est probablement à cet endroit qu'il faut intervenir.

Activer et configurer le contrôle des versions

Configuration du projet

La configuration du projet concerne exclusivement le projet actif (i.e. ouvert) à ce moment. Les options des projets sont disponibles à travers le menu principale, seulement si vous vous trouvez à l'intérieur d'un projet (en cas contraire, la voix du menu est désactivée) :

Tools > Project Options...

Les options pour les projets sont une sélection des options globales qui vont se superposer à celles-ci en cas de conflit. De cette manière, vous pouvez adapter certaines options seulement pour un projet, ce qui peut être utile par exemple si vous devez vous adapter à des lignes guides d'un projet partagé avec d'autres personnes. De cette manière, vous avez la possibilité de garder vos options habituelles pour toutes les autres utilisations en dehors du projet spécifique.

Configuration conseillée

RStudio permet un vaste éventail de configurations qui peuvent s'adapter à différentes exigences et finalités et il est par conséquent difficile de donner des conseils qui sont valables pour tous. Nous en proposons néanmoins quelques unes qui visent surtout à favoriser l'acquisition de bonnes pratiques.

Ne pas sauvegarder le workspace

Une configuration importante qui peut avoir des conséquences sur les habitudes est celle qui concerne l'espace de travail (i.e. Workspace), que vous pouvez trouver dans le menu :

Tools > Global Options > General

RStudio donne la possibilité de sauvegarder l'environnement de l'espace de travail et de le recharger lors de la réouverture du logiciel. Cette approche est déconseillée si vous souhaitez acquérir des principes d'automatisation des processus de travail (voir Pensée computationnelle avec R). En effet, il serait mieux de pouvoir reproduire l'environnement de vos analyses exclusivement à travers des commandes qui sont sauvegardés dans les fichiers scripts de votre projet RStudio. Pour cette raison, nous conseillons de désactiver l'option relative au rétablissement du workspace et de ne jamais sauvegarder le workspace à la sortie :

Désactiver les options relatives au workspace

Cette configuration risque de vous faire perdre quelques computations que vous avez effectuée à la console, sans la reporter dans un fichier script. Mais c'est justement ce risque qui devrait vous rappeler de toujours pouvoir reproduire les opérations à partire d'une source sauvegardée !

Activer les options Diagnostics

D'autres options qui peuvent favoriser des bonnes pratiques au niveau de l'écriture du code sont contenues dans le groupe Diagnostics que vous pouvez accéder depuis le menu :

Tools > Global Options > Code > Diagnostic
Activer les options diagnostiques qui permettent d'améliorer la qualité du code.

Stratégiquement, vous pouvez activer toutes les options et puis désactiver au fur et à mesure celles que vous trouvez trop contraignantes ou inutiles.

Problématiques fréquentes

Ressources