Tutoriels R
Analytique et exploration de données | |
---|---|
Module: Tutoriels R ◀▬ ▬▶ | |
Page d'entrée du module Analytique et exploration de données |
|
▬▶ | |
⚐ à améliorer | ☸ débutant |
⚒ 2022/06/27 | ⚒⚒ 2014/11/19 |
Voir aussi | |
Catégorie: R |
Introduction
R est un langage de programmation et un environnement open-source permettant le traitement des données et les analyses statistiques. Sur cette page nous proposons un tutoriel permettant de s’initier à cet environnement. Dans un premier temps, nous présenterons les bases du fonctionnement de R. Par la suite, nous introduirons le traitement des données alphanumériques (analyse qualitative). Dans un troisième temps nous introduirons le traitement des données numériques (analyse quantitative). Enfin, nous nous focaliserons sur la génération et l'analyse des graphes et réseaux.
Nous proposons plusieurs tutoriaux pratiques permettant d'introduire le lecteur au logiciel R.
- Le logiciel R
- Premiers pas avec R
- Les données R
- Importer des données dans R
- Traitement de données alphanumériques avec R
- Analyses statistiques
- GUI R
- Text mining avec R
- Text mining avec R
- Web scraping avec R
- Tutoriel tm text mining package
- Tutoriel koRpus
- Analyse de sentiments avec R
- Analytique de l'apprentissage avec R
- Logiciels basés sur R
Pourquoi préférer R à d'autres logiciels de traitement de données ?
- Il s’agit d’un logiciel gratuit à code source ouvert
- Il est compatible avec les systèmes Windows, MAC OS et Linux
- Il s’agit d’un logiciel très puissant et complet : en gros, il permet de tout faire !
- Il est en essor permanent
- En cas de problème, des milliers d'utilisateurs sont prêts à vous aider ! Cliquez ici pour accéder à une communauté française assez active
- La syntaxe est relativement simple, et s'apparente beaucoup à celle de Matlab
- R est très stable
Limites de R
- L'interface standard n'est pas user-friendly. L’application RStudio et l’interface graphique R-Commander permettent de surmonter cette limite.
Publique cible
Le public cible de R est constitué par toute personne désirant manipuler, traiter et analyser des données numériques ou alphanumériques.
D’après cereghd0, il ne faut pas avoir des compétences informatiques particulières pour apprendre à utiliser R. Cela dit, des connaissances de base en programmation faciliteraient la tâche, notamment si on pense utiliser les paquets "text mining" de R.
Installation de R
Installer sur Windows et Mac
Pour installer R dirigez-vous sur http://cran.r-project.org/ et télécharger l’environnement convenant au système d’exploitation de votre ordinateur. Ensuite, installer aussi un "front-end" (voir ci-dessous).
Installer sur Ubuntu 16LTS avec l'installeur officiel (déconseillé !!)
sudo apt-get install r-base
- Toutefois l'installation par défaut vous donne une version dépassée de R et qui incompatible avec certains paquets comme tm. Voir ci-dessous
Installer une version récente de R sur Ubuntu 16LTS
- Il faut substituer l'archive Ubuntu par celui de CRAN
- Lire How to Install R Ubuntu 16.04 Xenial
sudo echo "deb http://cran.rstudio.com/bin/linux/ubuntu xenial/" | sudo tee -a /etc/apt/sources.list gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9 gpg -a --export E084DAB9 | sudo apt-key add - sudo apt-get update sudo apt-get install r-base r-base-dev
Il faut aussi réparer la configuration R pour Java, sinon on va rencontrer une erreur comme configure: error: Java interpreter '/usr/lib/jvm/default-java/jre/bin/java' does not work
sudo R CMD javareconf
Ensuite, pour avoir la librairie "tm" de R (et d'autres) il faut installer un paquet pour curl et pour XML
sudo apt-get install libcurl4-gnutls-dev sudo apt install libxml2-dev
Installation de front-end plus conviviaux
RStudio
On conseille d'installer RStudio, une interface à R améliorée. RStudio améliore par exemple la gestion des scripts (vos séquences d'instruction) et des packages (extensions).
Il existe des installeurs pour Windows, Mac et Ubuntu/Debian.
RKWard
RKWard est une initiative plus récente et qui propose un véritable GUI, en tout cas pour certaines statistiques et visualisations.
Installation:
- Les explications et les liens se trouvent dans le wiki de source forge
- Windows
- Soit on peut installer un paquet complet, soit on peut installer R et KDE séparément. La dernière solution est préférable (car cela vous évite d'installer une autre version de R) mais elle est plus compliquée...
- Mac
- Il faut installer R d'abord ensuite trouver un fichier *.dmg qui correspond à cette version
- Sous Ubuntu:
- sudo apt-get install RKWard
- rkward
Rattle
Rattle est une interface graphique pour le data mining et qui tourne dans R et qui permet de faire qqs. analyses rapides, simplement.
Pour l'installation, lire:
Ce paquet permet de lire différent types de données, dont des fichiers CSV ou encore des *.txt (qu'on a par exemple exporté avec tm Corpus
Lire: Williams, G. (2009). Rattle: A Data Mining GUI for R, The R Journal Vol. 1/2, December 2009
EZManip
EZManip est un logiciels qui ressemble à RStudio et qui intègre aussi une interface pour les bibliothèques SAS (un logiciel statistique).
Autres
Il existe aussi des logiciels qui utilisent R, et qui nécessite aucune connaissance au niveau du "langage de commande". Un exemple est IRaMuTeQ, un logiciel d'analyse de texte.
Packages, bibliographie et liens
Learning Analytics Moodle, une production locale
cereghd0 a créé des fonctions permettant d'analyser les rapports de Moodle concernant l'activité des utilisateurs : Learning Analytics Moodle. Ce logiciel est destiné aux enseignants et aux chercheurs en technologies éducatives.
Packages utiles
Voir selon le type d'analyse, par exemple:
- text mining avec R
- Analyses statistiques avec R
- Tidyverse Collection des packages pour le data science tels que :
R du côté serveur
- Rserve, a TCP/IP server which allows other programs to use facilities of R. Il existe un client PHP.
- FastRweb, an infrastructure that allows any webserver to use R scripts for generating content on the fly, such as web pages or graphics. Marche avec Rserve.
Liens
Manuels et résumés
- R Reference Card. Résumé officiel des commandes R.
- Yanchang Zhao's R Reference Card for Data Mining, aussi disponible à http://www.rdatamining.com/
- RDocumentation.org. Manuel de référence complet pour la plupart des paquets. Correspond au help interne, mais plus simple à utiliser. Les aides sont regroupés par thème, par exemple NaturalLanguageProcessing, sinon utilisez le formulaire de recherche.
- Package Reference at inside-r
Sites R
(tutoriels, exemples, etc.)
- Inside-r
- Tutoriels R de E.Horber (UniGE) Français/Anglais
- R Tutorials by William B. King. This is a good source for doing simple and advanced classical statistics with R
- Statmethods.net (Quick-R, site populaire pour débutants R ayant qqs. connaissances en stats orientés problème->solution)
- RDM R Data Mining
- Introduction to R (Tutoriel avec exercices). Demande de s'enregistrer
- Software-Carpentry. Contient quelques tutoriels pour R.
- R for Data Science. Principalement axé sur le traitement et visualisation des données
- Try R. Tutoriel in-browser introductif à la syntaxe de R (by Code School)
- Introduction to Data Science par Rafael A. Irizarry, avec des applications/exemples avec R.
- Advanced R par Hadley Wickham
- Happy Git and GitHub for userR par Jenny Bryan. Instructions détaillée sur l'installation et utilisation de R avec Git et Github
- ModernDive: An Introduction to Statistical and Data Sciences via R par Chester Ismay et Albert Y. Kim
Bibliographie
- Adler, J. (2011). R, L’essentiel. Pearson.
- Burns, Patrick (2011). The R Inferno (PDF).
- Beauguitte, L. (2012). Analyser les réseaux avec R (packages statnet, igraph et tnet). http://cel.archives-ouvertes.fr/docs/00/68/78/71/PDF/fmr12_analyse_de_graphe_avec_R.pdf
- Barnier, J. (2011). L'analyse des réseaux avec R. http://alea.fr.eu.org/git/doc_reseaux_r.git/blob_plain/HEAD:/networks.pdf
- Chevalier, B. (2005). Logiciels libres Open source : qu'est-ce que c'est ? Paris : H & K.
- Cornillon, P.A. (2010). Statistiques avec R (2ème édition augmentée). Rennes : Presses Universitaires de Rennes.
- Howell, D. (1998). Méthodes statistiques en sciences humaines. Bruxelles : Editions De Boeck Université.
- Huillet, J. Initiation à l’environnement R. http://cict.fr/~stpierre/doc-R.pdf
- Jean, B. (2011). Du bon usage des licences libres. Framasoft (coll. Framabook).
- Millot, G. (2008). Comprendre et réaliser les tests statistiques à l’aide de R (1ère édition). Bruxelles : Editions De Boeck Université.
- Smets-Solanes, J.P. (1999). Logiciels libres : liberté, égalité, business. Paris : Edispher.
- R Programming/Text Processing Wikibook.
Remerciements
Une première version de cette série a été crée par Donato C. Cereghetti dans une long article intitulé R. (2013). EduTech Wiki. Page consultée le 16:17, novembre 19, 2014 à partir de http://edutechwiki.unige.ch/fmediawiki/index.php?title=R&oldid=40471.