RStudio
Cet article est en construction: un auteur est en train de le modifier.
En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.
Introduction
RStudio est un integrated development environment (IDE) pour R, open-source et multi-plateforme, développé et maintenu par une Public Benefit Corporation, la RStudio, PBC, qui fournit le logiciel gratuitement ou commercialement.
RStudio se compose de plusieurs fonctionnalités qui intègrent la simple ligne de commande disponible à travers la version de base de R, comme par exemple :
- Support pour l'écriture de code (complètement automatique et mise en évidence de la syntaxe)
- Aide pour l'importation et la visualization de données
- Affichage et sauvegarde de représentations graphiques (graphiques, images, ...)
- Organisation et gestion des fichiers à travers des projets
- Création de report en différents formats (HTML, PDF, ...)
De ce fait, RStudio représente l'une des composantes principales pour la mise en place d'un environnement de travail avec R. Dans cette page, nous proposons un survol du logiciel et ses caractéristiques principales.
Cadres d'utilisation de RStudio
RStudio est un élément intégrant de la pensée computationnelle avec R, une collection de ressources destinée à des chercheurs ou formateurs qui souhaitent utiliser R comme outil pratique et [[outil cognitif|cognitif]. Dans ces contextes, RStudio peut servir à :
- Organiser et éventuellement partager un projet de recherche
- Faciliter la compréhension du fonctionnement de R
- Créer et partager du matériel pédagogique
- Intégrer des pratiques corollaires comme l'utilisation d'un système de contrôle de version (e.g. Git)
- Favoriser la découverte de ressources et extensions créées par une communauté active et qui partage les mêmes objectifs et difficultés pour les atteindre
Note sur la version
La plupart du contenu de cet article fait référence à la version 1.2.x
de RStudio (voir versionnage sémantique).
Installation
RStudio est disponible en trois versions :
- RStudio Desktop : logiciel desktop qui nécessitent d'une installation en local
- RStudio Server : application serveur qui nécessite l'installation sur un serveur distant et qui est ensuite accessible depuis un navigateur web
- RStudio Cloud : plateforme gérée par la même société qui permet d'accéder à RStudio en tant que Software as a Service (Saas), actuellement en phase beta (voir Versionnage sémantique)
Pour une discussion plus approfondie des trois différentes options, voir :
Dans cette section, nous fournirons les informations nécessaires à l'installation en local et quelques ressources pour l'installation serveur.
Installer RStudio Desktop
RStudio Desktop est un logiciel multi-plateforme, disponible pour Windows, Linux et Mac. Il existe en version gratuite, mise à disposition sous-licence AGPL, et en licence commerciale pour les entreprises.
Si vous avez plusieurs versions de R installées sur votre machine, vous pouvez choisir laquelle utiliser avec RStudio à travers les options de configuration (voir plus bas).
Mise à part la nécessité d'avoir R déjà installé sur sa propre machine, l'installation de RStudio Desktop ne présente pas d'aspects particuliers par rapport à une normale installation de toute autre logiciel :
- Pointez vers la page de download officiel
- Choisissez la version gratuite du logiciel (RStudio Desktop Free)
- Acceptez la version proposée par le bouton de download ou téléchargez le fichier d'installation depuis la liste All installers pour votre système d'exploitation
Installer RStudio Server
L'installation de la version server de RStudio nécessite de compétences techniques au niveau de la gestion de serveur, et peut donc intéresser principalement des ingénieur systèmes ou des responsables techniques d'une équipe de recherche. Néanmoins, elle peut-être également une solution pour des formateurs qui veulent proposer l'utilisation de RStudio aux étudiants, sans qu'ils aient à installer tous les composantes nécessaires sur leurs ordinateurs. Dans ce cas, la difficulté concerne plutôt la mise en place du serveur, l'installation de RStudio server est plutôt simple à ce moment.
Pour plus d'informations voir la section sur l'environnement serveur dans la page :
Présentation de l'interface
Fonctionnalités principales
RStudio met à disposition plusieurs fonctionnalités dont l'objectif est d'aider l'utilisateur à utiliser R de la meilleure manière, en exploitant ses possibilités et en limitant certains de ses défauts. Nous proposons ici quelques fonctionnalités principales qui pourraient intéresser surtout des personnes qui s'approchent pour la première fois à l'écosystème de R.
Projets
Probablement la fonctionnalité la plus importante mise à disposition par RStudio concerne la création de projets. Un projet en RStudio est une collection de fichiers qui partagent un lien sémantique entre eux, par exemple :
- Ils font tous partie de la même analyse de données (e.g. article scientifique, enquête, mémoire, thèse, ...)
- Ils composent un paquet de R à partager avec d'autres
- Ils sont destinés pour quelqu'un d'autre, notamment à travers la publication sur une plateforme de partage (e.g. tutoriel, leçon, devoir, ...)
Les projets en RStudio permettent d'organiser les différents fichiers (données, scripts, graphiques, ...) afin de faciliter leur utilité et durée de vie dans le temps. Pour maximiser l'utilité des projets, cependant, il faut intégrer également quelques bonnes pratiques au niveau de la nomination et arborescence des dossiers et fichiers qui font partie du projet. Certains de ces pratiques sont abordées dans l'article premier projet avec RStudio qui présente un tutoriel pas à pas avec un cas spécifique en tant qu'exemple. Ici, nous proposons simplement les aspects techniques relatifs à la création des projets à travers l'interface RStudio.
Créer un nouveau projet
Pour créer un projet, utilisez le menu :
File > New Project ...
En alternative, vous pouvez utiliser le bouton correspondant dans la barre des icônes en bas du menu principale. Le résultat est le même.
Il existe trois manières de créer un projet avec RStudio :
- Créer un nouveau projet complètement vide
- Créer un projet dans un dossier déjà existant, notamment avec déjà des fichiers
- Créer un projet en utilisant un système de contrôle de version comme source (e.g. GitHub, GitLab, ...). Cette option nécessite d'avoir un logiciel de contrôle de versions installé sur votre machine (voir configuration plus bas)
==
Configuration
La configuration de RStudio peut se faire à deux niveaux :
- Au niveau du fonctionnement global
- Au niveau des projets individuels
RStudio prévoit plusieurs possibilités de configuration. Nous conseillons de revoir de temps en temps les différents options au fur et à mesure que votre expérience avec le logiciel augmente : il peut y avoir des éléments intéressants, mais qui nécessitent d'une compréhension plus approfondie de l'environnement de travail.
Configuration global
La configuration global concerne chaque utilisation du logiciel, indépendamment du contexte (projet, fichier, ...). Les options globales sont disponibles à travers le menu principal :
Tools > Global Options...
Changer la version de R utilisée
Si vous avez plusieurs versions de R installées sur votre machine, vous pouvez décidez quelle version utiliser avec RStudio à travers le menu :
Tools > Global Options... > General > R version > Change > Choose a specific version of R
À ce moment, les différentes versions reconnues dans votre système sont listées, il suffit de sélectionner celle désirée.
Activer un système de contrôle de versions
Dans les options globales vous pouvez activer et configurez des systèmes de contrôle de versions. Ces systèmes permettent de garder trace de l'évolution des fichiers dans le temps et doivent déjà être installés sur votre machine. En mars 2019, deux systèmes sont proposés :
- Git
- Subversion (abrégé SVN)
Pour activer et configurer un système de contrôle de versions, utilisez le menu :
Tools > Global Options... > Git/SVN
Vous pouvez à ce moment activer l'option en général et configurez les chemins aux exécutables qui permettent de lancer les commandes à travers l'interface de RStudio. Dans la plupart des cas, ces chemins devraient déjà être correctes si vous avez installé les logiciels dans les chemins conseillés, mais si vous avez des difficultés à faire fonctionner le système de contrôle de versions, c'est probablement à cet endroit qu'il faut intervenir.
Configuration du projet
La configuration du projet concerne exclusivement le projet actif (i.e. ouvert) à ce moment. Les options des projets sont disponibles à travers le menu principale, seulement si vous vous trouvez à l'intérieur d'un projet (en cas contraire, la voix du menu est désactivée) :
Tools > Project Options...
Les options pour les projets sont une sélection des options globales qui vont se superposer à celles-ci en cas de conflit. De cette manière, vous pouvez adapter certaines options seulement pour un projet, ce qui peut être utile par exemple si vous devez vous adapter à des lignes guides d'un projet partagé avec d'autres personnes. De cette manière, vous avez la possibilité de garder vos options habituelles pour toutes les autres utilisations en dehors du projet spécifique.
Configuration conseillée
RStudio permet un vaste éventail de configurations qui peuvent s'adapter à différentes exigences et finalités et il est par conséquent difficile de donner des conseils qui sont valables pour tous. Nous en proposons néanmoins quelques unes qui visent surtout à favoriser l'acquisition de bonnes pratiques.
Ne pas sauvegarder le workspace
Une configuration importante qui peut avoir des conséquences sur les habitudes est celle qui concerne l'espace de travail (i.e. Workspace), que vous pouvez trouver dans le menu :
Tools > Global Options > General
RStudio donne la possibilité de sauvegarder l'environnement de l'espace de travail et de le recharger lors de la réouverture du logiciel. Cette approche est déconseillée si vous souhaitez acquérir des principes d'automatisation des processus de travail (voir Pensée computationnelle avec R). En effet, il serait mieux de pouvoir reproduire l'environnement de vos analyses exclusivement à travers des commandes qui sont sauvegardés dans les fichiers scripts de votre projet RStudio. Pour cette raison, nous conseillons de désactiver l'option relative au rétablissement du workspace et de ne jamais sauvegarder le workspace à la sortie :
Cette configuration risque de vous faire perdre quelques computations que vous avez effectuée à la console, sans la reporter dans un fichier script. Mais c'est justement ce risque qui devrait vous rappeler de toujours pouvoir reproduire les opérations à partire d'une source sauvegardée !
Activer les options Diagnostics
D'autres options qui peuvent favoriser des bonnes pratiques au niveau de l'écriture du code sont contenues dans le groupe Diagnostics que vous pouvez accéder depuis le menu :
Tools > Global Options > Code > Diagnostic
Stratégiquement, vous pouvez activer toutes les options et puis désactiver au fur et à mesure celles que vous trouvez trop contraignantes ou inutiles.
Ressources
- Site officiel de RStudio, PBC
- RStudio IDE
- RStudio Education : collections de ressources organisées par niveaux d'apprentissage
- Community RStudio : forum de support, échanges, ...
- Ressources RStudio : collections de ressources ponctuelles, avec tutoriels vidéos et webinars
- Cheat sheets : collections de feuilles avec synthèses des informations sur plusieurs éléments relatifs à R ou RStudio