RStudio

De EduTech Wiki
Aller à la navigation Aller à la recherche

Cet article est en construction: un auteur est en train de le modifier.

En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.



Introduction

RStudio est un integrated development environment (IDE) pour R, open-source et multi-plateforme, développé et maintenu par une Public Benefit Corporation, la RStudio, PBC, qui fournit le logiciel gratuitement ou commercialement.

RStudio se compose de plusieurs fonctionnalités qui intègrent la simple ligne de commande disponible à travers la version de base de R, comme par exemple :

  • Support pour l'écriture de code (complètement automatique et mise en évidence de la syntaxe)
  • Aide pour l'importation et la visualization de données
  • Affichage et sauvegarde de représentations graphiques (graphiques, images, ...)
  • Organisation et gestion des fichiers à travers des projets
  • Création de report en différents formats (HTML, PDF, ...)

De ce fait, RStudio représente l'une des composantes principales pour la mise en place d'un environnement de travail avec R. Dans cette page, nous proposons un survol du logiciel et ses caractéristiques principales.

Cadres d'utilisation de RStudio

RStudio est un élément intégrant de la pensée computationnelle avec R, une collection de ressources destinée à des chercheurs ou formateurs qui souhaitent utiliser R comme outil pratique et [[outil cognitif|cognitif]. Dans ces contextes, RStudio peut servir à  :

Note sur la version

La plupart du contenu de cet article fait référence à la version 1.2.x de RStudio (voir versionnage sémantique).

Installation

RStudio est disponible en trois versions :

  • RStudio Desktop : logiciel desktop qui nécessitent d'une installation en local
  • RStudio Server : application serveur qui nécessite l'installation sur un serveur distant et qui est ensuite accessible depuis un navigateur web
  • RStudio Cloud : plateforme gérée par la même société qui permet d'accéder à RStudio en tant que Software as a Service (Saas), actuellement en phase beta (voir Versionnage sémantique)

Pour une discussion plus approfondie des trois différentes options, voir :

Dans cette section, nous fournirons les informations nécessaires à l'installation en local et quelques ressources pour l'installation serveur.

Installer RStudio Desktop

RStudio Desktop est un logiciel multi-plateforme, disponible pour Windows, Linux et Mac. Il existe en version gratuite, mise à disposition sous-licence AGPL, et en licence commerciale pour les entreprises.

RStudio Desktop exploite la version de R disponible sur l'ordinateur. Il faut donc d'abord installer R pour pouvoir utiliser RStudio Desktop.

Si vous avez plusieurs versions de R installées sur votre machine, vous pouvez choisir laquelle utiliser avec RStudio à travers les options de configuration (voir plus bas).

Mise à part la nécessité d'avoir R déjà installé sur sa propre machine, l'installation de RStudio Desktop ne présente pas d'aspects particuliers par rapport à une normale installation de toute autre logiciel :

  1. Pointez vers la page de download officiel
  2. Choisissez la version gratuite du logiciel (RStudio Desktop Free)
  3. Acceptez la version proposée par le bouton de download ou téléchargez le fichier d'installation depuis la liste All installers pour votre système d'exploitation

Installer RStudio Server

L'installation de la version server de RStudio nécessite de compétences techniques au niveau de la gestion de serveur, et peut donc intéresser principalement des ingénieur systèmes ou des responsables techniques d'une équipe de recherche. Néanmoins, elle peut-être également une solution pour des formateurs qui veulent proposer l'utilisation de RStudio aux étudiants, sans qu'ils aient à installer tous les composantes nécessaires sur leurs ordinateurs. Dans ce cas, la difficulté concerne plutôt la mise en place du serveur, l'installation de RStudio server est plutôt simple à ce moment.

Pour plus d'informations voir la section sur l'environnement serveur dans la page :

Présentation de l'interface

Fonctionnalités principales

RStudio met à disposition plusieurs fonctionnalités dont l'objectif est d'aider l'utilisateur à utiliser R de la meilleure manière, en exploitant ses possibilités et en limitant certains de ses défauts. Nous proposons ici quelques fonctionnalités principales qui pourraient intéresser surtout des personnes qui s'approchent pour la première fois à l'écosystème de R.

Projets

Probablement la fonctionnalité la plus importante mise à disposition par RStudio concerne la création de projets. Un projet en RStudio est une collection de fichiers qui partagent un lien sémantique entre eux, par exemple :

  • Ils font tous partie de la même analyse de données (e.g. article scientifique, enquête, mémoire, thèse, ...)
  • Ils composent un paquet de R à partager avec d'autres
  • Ils sont destinés pour quelqu'un d'autre, notamment à travers la publication sur une plateforme de partage (e.g. tutoriel, leçon, devoir, ...)

Les projets en RStudio permettent d'organiser les différents fichiers (données, scripts, graphiques, ...) afin de faciliter leur utilité et durée de vie dans le temps. Pour maximiser l'utilité des projets, cependant, il faut intégrer également quelques bonnes pratiques au niveau de la nomination et arborescence des dossiers et fichiers qui font partie du projet. Certains de ces pratiques sont abordées dans l'article premier projet avec RStudio qui présente un tutoriel pas à pas avec un cas spécifique en tant qu'exemple. Ici, nous proposons simplement les aspects techniques relatifs à la création des projets à travers l'interface RStudio.

Créer un nouveau projet

Pour créer un projet, utilisez le menu :

File > New Project ...

En alternative, vous pouvez utiliser le bouton correspondant dans la barre des icônes en bas du menu principale. Le résultat est le même.

Créer un nouveau projet avec RStudio

Il existe trois manières de créer un projet avec RStudio :

  1. New Directory
    Créer un nouveau projet dans un nouveau dossier, complètement vide. Option à choisir si vous démarrez votre projet de zéro. L'étape de création est accompagnée avec la possibilité de choisir parmi des templates (voir plus bas).
  2. Existing Directory
    Créer un projet dans un dossier déjà existant, notamment avec déjà des fichiers. Option à choisir si vous avez déjà mis en place une structure pour votre projet (e.g. arborescence des données, scripts, ...) ou si vous souhaitez transformer en projet une ancienne analyse.
  3. Version Control
    Créer un projet en utilisant un système de contrôle de version comme source (e.g. GitHub, GitLab, ...). Cette option nécessite d'avoir un logiciel de contrôle de versions installé sur votre machine (voir configuration plus bas)

Nouveau projet à partir de zéro : choix parmi des templates

Si vous choisissez l'option New Directory, l'écran suivant vous propose une liste de templates pour la création de types de projets différents. Par exemple, vous pouvez choisir parmi :

Différents types de nouveaux projets
  • New Project
    Choix générique pour la création d'un nouveau projet, sans structure préétablie. C'est l'option la plus fréquente si votre projet n'a pas des caractéristiques particulières.
  • R Package
    Création d'un paquet de R. Ce choix crée automatiquement une structure de dossier compatible avec la création et publication d'un paquet de R.

La visualization d'autres choix possibles peut dépendre des paquets ou extensions de RStudio que vous avez installés. Certains paquets, en effet, offrent des fonctionnalités qui nécessitent de structures de dossiers et des fichiers particulières (e.g. Blog, Livre numérique, ...). Ces structures peuvent être créées automatiquement à travers le template correspondant.

Définir le nom du dossier et la position du projet dans l'arborescence des fichiers de votre machine.

Indépendamment du type de projet, l'étape suivante consiste à créer un nouveau dossier à un endroit sur votre machine. À quel endroit placer votre projet dépend de votre organisation interne des fichiers. Par contre, pour le nom du dossier, il est bien de se tenir à quelques règles de base :

  • Utilisez un nom de dossier sémantique qui permet de reconnaître la fonction du projet
  • Utilisez seulement des lettres minuscules, chiffres et à la limite les caractères - et _.
  • Évitez les majuscules, lettres avec accents, caractères spéciaux, ainsi que les espaces

Selon le type de projet que vous avez choisi, l'écran de création peut vous proposer d'autres options. Une option commune à plusieurs types de projet concerne la possibilité d'initialiser un repository avec un système de version de contrôle, comme par exemple Git (voir configuration plus bas).

Configuration

La configuration de RStudio peut se faire à deux niveaux :

  • Au niveau du fonctionnement global
  • Au niveau des projets individuels

RStudio prévoit plusieurs possibilités de configuration. Nous conseillons de revoir de temps en temps les différents options au fur et à mesure que votre expérience avec le logiciel augmente : il peut y avoir des éléments intéressants, mais qui nécessitent d'une compréhension plus approfondie de l'environnement de travail.

Configuration global

La configuration global concerne chaque utilisation du logiciel, indépendamment du contexte (projet, fichier, ...). Les options globales sont disponibles à travers le menu principal :

Tools > Global Options...

Changer la version de R utilisée

Si vous avez plusieurs versions de R installées sur votre machine, vous pouvez décidez quelle version utiliser avec RStudio à travers le menu :

Tools > Global Options... > General > R version > Change > Choose a specific version of R

À ce moment, les différentes versions reconnues dans votre système sont listées, il suffit de sélectionner celle désirée.

Changer la version de R à utiliser avec RStudio

Activer un système de contrôle de versions

Dans les options globales vous pouvez activer et configurez des systèmes de contrôle de versions. Ces systèmes permettent de garder trace de l'évolution des fichiers dans le temps et doivent déjà être installés sur votre machine. En mars 2019, deux systèmes sont proposés :

  • Git
  • Subversion (abrégé SVN)

Pour activer et configurer un système de contrôle de versions, utilisez le menu :

Tools > Global Options... > Git/SVN

Vous pouvez à ce moment activer l'option en général et configurez les chemins aux exécutables qui permettent de lancer les commandes à travers l'interface de RStudio. Dans la plupart des cas, ces chemins devraient déjà être correctes si vous avez installé les logiciels dans les chemins conseillés, mais si vous avez des difficultés à faire fonctionner le système de contrôle de versions, c'est probablement à cet endroit qu'il faut intervenir.

Activer et configurer le contrôle des versions

Configuration du projet

La configuration du projet concerne exclusivement le projet actif (i.e. ouvert) à ce moment. Les options des projets sont disponibles à travers le menu principale, seulement si vous vous trouvez à l'intérieur d'un projet (en cas contraire, la voix du menu est désactivée) :

Tools > Project Options...

Les options pour les projets sont une sélection des options globales qui vont se superposer à celles-ci en cas de conflit. De cette manière, vous pouvez adapter certaines options seulement pour un projet, ce qui peut être utile par exemple si vous devez vous adapter à des lignes guides d'un projet partagé avec d'autres personnes. De cette manière, vous avez la possibilité de garder vos options habituelles pour toutes les autres utilisations en dehors du projet spécifique.

Configuration conseillée

RStudio permet un vaste éventail de configurations qui peuvent s'adapter à différentes exigences et finalités et il est par conséquent difficile de donner des conseils qui sont valables pour tous. Nous en proposons néanmoins quelques unes qui visent surtout à favoriser l'acquisition de bonnes pratiques.

Ne pas sauvegarder le workspace

Une configuration importante qui peut avoir des conséquences sur les habitudes est celle qui concerne l'espace de travail (i.e. Workspace), que vous pouvez trouver dans le menu :

Tools > Global Options > General

RStudio donne la possibilité de sauvegarder l'environnement de l'espace de travail et de le recharger lors de la réouverture du logiciel. Cette approche est déconseillée si vous souhaitez acquérir des principes d'automatisation des processus de travail (voir Pensée computationnelle avec R). En effet, il serait mieux de pouvoir reproduire l'environnement de vos analyses exclusivement à travers des commandes qui sont sauvegardés dans les fichiers scripts de votre projet RStudio. Pour cette raison, nous conseillons de désactiver l'option relative au rétablissement du workspace et de ne jamais sauvegarder le workspace à la sortie :

Désactiver les options relatives au workspace

Cette configuration risque de vous faire perdre quelques computations que vous avez effectuée à la console, sans la reporter dans un fichier script. Mais c'est justement ce risque qui devrait vous rappeler de toujours pouvoir reproduire les opérations à partire d'une source sauvegardée !

Activer les options Diagnostics

D'autres options qui peuvent favoriser des bonnes pratiques au niveau de l'écriture du code sont contenues dans le groupe Diagnostics que vous pouvez accéder depuis le menu :

Tools > Global Options > Code > Diagnostic
Activer les options diagnostiques qui permettent d'améliorer la qualité du code.

Stratégiquement, vous pouvez activer toutes les options et puis désactiver au fur et à mesure celles que vous trouvez trop contraignantes ou inutiles.

Ressources