« Tutoriels R » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
mAucun résumé des modifications
m (ajout Analyse de réseaux avec R)
 
(51 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
{{tutoriel
{{tutoriel
|fait_partie_du_cours=Tutoriels R
|fait_partie_du_cours=Analytique et exploration de données
|fait_partie_du_module=Tutoriels R
|module_précédant=Text mining
|est_module_de=Analytique et exploration de données
|page_suivante=Premiers pas avec R
|page_suivante=Premiers pas avec R
|module_suivant=Text mining avec R
|statut=à améliorer
|dernière_modif=2014/11/19
|dernière_modif=2014/11/19
|voir_aussi=Premiers pas avec R,Les données R ,Importer des données dans R,Traitement de données alphanumériques avec R,Analyses statistiques avec R ,Text mining avec R,Web scraping avec R,Tutoriel koRpus,Tutoriel tm text mining package, Analyse de sentiments avec R
|cat tutoriels=R
|cat tutoriels=R
|difficulté=débutant
|difficulté=débutant
}}
}}
== Introduction ==
== Introduction ==
count = {{#subpagecount:}}
{{#ifexpr {{#subpagecount:}}<1 | doh}}
{#ifexpr: 1 > 0 | yes }}


R est un langage de programmation et un environnement open-source permettant le traitement des données et les analyses statistiques. Sur cette page nous proposons un tutoriel permettant de s’initier à cet environnement. Dans un premier temps, nous présenterons les bases du fonctionnement de R. Par la suite, nous introduirons le traitement des données alphanumériques (analyse qualitative). Dans un troisième temps nous introduirons le traitement des données numériques (analyse quantitative). Enfin, nous nous focaliserons sur la génération et l'analyse des graphes et réseaux.
R est un langage de programmation et un environnement open-source permettant le traitement des données et les analyses statistiques. Sur cette page nous proposons un tutoriel permettant de s’initier à cet environnement. Dans un premier temps, nous présenterons les bases du fonctionnement de R. Par la suite, nous introduirons le traitement des données alphanumériques (analyse qualitative). Dans un troisième temps nous introduirons le traitement des données numériques (analyse quantitative). Enfin, nous nous focaliserons sur la génération et l'analyse des graphes et réseaux.
Ligne 18 : Ligne 18 :
Nous proposons plusieurs tutoriaux pratiques permettant d'introduire le lecteur au logiciel R.  
Nous proposons plusieurs tutoriaux pratiques permettant d'introduire le lecteur au logiciel R.  


; Le logiciel R
* [[Premiers pas avec R]]
* [[Premiers pas avec R]]
* [[Les données R]]
* [[Les données R]]
* [[Importer des données dans R]]
* [[Traitement de données alphanumériques avec R]]
* [[Traitement de données alphanumériques avec R]]
; Analyses statistiques
* [[Analyses statistiques avec R]]
* [[Analyses statistiques avec R]]
* [[Analyse de statistiques web avec R]]
; GUI R
* [[Data mining avec Rattle]]
; Text mining avec R
* [[Text mining avec R]]
* [[Text mining avec R]]
* [[Web scraping avec R]]
* [[Tutoriel tm text mining package]]
* [[Tutoriel koRpus]]
* [[Analyse de sentiments avec R]]
; Analytique de l'apprentissage avec R
* [[Analyse de réseaux avec R]]
; Logiciels basés sur R
* [[IRaMuTeQ]]


'''Pourquoi préférer R à d'autres logiciels de traitement de données ?'''
'''Pourquoi préférer R à d'autres logiciels de traitement de données ?'''
Ligne 36 : Ligne 56 :
'''Limites de R'''
'''Limites de R'''


* L'interface standard n'est pas user-friendly. L’application [http://www.rstudio.com/ R Studio] et l’interface graphique [http://www.rcommander.com/ R-Commander] permettent de surmonter cette limite.
* L'interface standard n'est pas user-friendly. L’application [[RStudio]] et l’interface graphique [http://www.rcommander.com/ R-Commander] permettent de surmonter cette limite.


'''Publique cible'''
'''Publique cible'''
Ligne 42 : Ligne 62 :
Le public cible de R est constitué par toute personne désirant manipuler, traiter et analyser des données numériques ou alphanumériques.
Le public cible de R est constitué par toute personne désirant manipuler, traiter et analyser des données numériques ou alphanumériques.


D’après [[User:cereghd0|cereghd0]], il ne faut pas avoir des compétences informatiques particulières pour apprendre à utiliser R. Cela dit, des connaissances de base en programmation faciliteraient la tâche.
D’après [[User:cereghd0|cereghd0]], il ne faut pas avoir des compétences informatiques particulières pour apprendre à utiliser R. Cela dit, des connaissances de base en programmation faciliteraient la tâche, notamment si on pense utiliser les paquets "text mining" de R.


== Installation de R ==
== Installation de R ==
Ligne 50 : Ligne 70 :
Pour installer R dirigez-vous sur http://cran.r-project.org/ et télécharger l’environnement convenant au système d’exploitation de votre ordinateur. Ensuite, installer aussi un "front-end" (voir ci-dessous).
Pour installer R dirigez-vous sur http://cran.r-project.org/ et télécharger l’environnement convenant au système d’exploitation de votre ordinateur. Ensuite, installer aussi un "front-end" (voir ci-dessous).


'''Installer sur Ubuntu'''
'''Installer sur Ubuntu 16LTS avec l'installeur officiel (déconseillé !!)'''


Installer R sur Linux est un petit peu plus compliqué, dans Debian/Ubuntu ce package n'est pas dans la liste de distribution par exemple.
sudo apt-get install r-base
: Toutefois l'installation par défaut vous donne une version dépassée de R et qui incompatible avec certains paquets comme tm. Voir ci-dessous


Tips pour Ubuntu:
'''Installer une version récente de R sur Ubuntu 16LTS'''
* Il faut vérifier l'archive de téléchargement, par exemple éditer à la main le fichier <code>/etc/apt/sources.list</code>. Les Suisses mettront:
deb http://stat.ethz.ch/CRAN/bin/linux/ubuntu trusty/
: Notez le "trusty" s'applique aux installations Ubuntu 14LTS ! Suivez les instructions, sur http://cran.r-project.org/
* Il faut aussi radicalement tuer des anciennes versions installées à la main, par exemple:
sudo apt-get --purge remove r-base


* Installer
* Il faut substituer l'archive Ubuntu par celui de CRAN
* Lire [https://www.r-bloggers.com/how-to-install-r-ubuntu-16-04-xenial/ How to Install R Ubuntu 16.04 Xenial]
 
sudo echo "deb http://cran.rstudio.com/bin/linux/ubuntu xenial/" | sudo tee -a /etc/apt/sources.list
gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9
gpg -a --export E084DAB9 | sudo apt-key add -
  sudo apt-get update
  sudo apt-get update
  sudo apt-get install r-base
  sudo apt-get install r-base r-base-dev
 
Il faut aussi réparer la configuration R pour Java, sinon on va rencontrer une erreur comme ''configure: error: Java interpreter '/usr/lib/jvm/default-java/jre/bin/java' does not work''
 
sudo R CMD javareconf
 
Ensuite, pour avoir la librairie "tm" de R (et d'autres) il faut installer un paquet pour curl et pour XML
sudo apt-get install libcurl4-gnutls-dev
sudo apt install libxml2-dev
 
== Installation de front-end plus conviviaux ==
 
=== RStudio ===
 
On conseille d'installer [[RStudio]], une interface à R améliorée. RStudio améliore par exemple la gestion des scripts (vos séquences d'instruction) et des packages (extensions).
 
Il existe des installeurs pour Windows, Mac et Ubuntu/Debian.
 
=== RKWard ===
 
[http://rkward.sourceforge.net/wiki/Main_Page RKWard] est une initiative plus récente et qui propose un véritable GUI, en tout cas pour certaines statistiques et visualisations.
 
Installation:
: Les explications et les liens se trouvent dans le [http://rkward.sourceforge.net/wiki/Main_Page wiki de source forge]
* Windows
: Soit on peut installer un paquet complet, soit on peut installer R et KDE séparément. La dernière solution est préférable (car cela vous évite d'installer une autre version de R) mais elle est plus compliquée...
* Mac
: Il faut installer R d'abord ensuite trouver un fichier *.dmg qui correspond à cette version
* Sous Ubuntu:
: sudo apt-get install RKWard
: rkward
 
=== Rattle ===
 
Rattle est une interface graphique pour le data mining et qui tourne dans R et qui permet de faire qqs. analyses rapides, simplement.
 
Pour l'installation, lire:
* [[Data mining avec Rattle]]
 
Ce paquet permet de lire différent types de données, dont des fichiers CSV ou encore des *.txt (qu'on a par exemple exporté avec tm Corpus
 
Lire: Williams, G. (2009). [http://journal.r-project.org/archive/2009-2/RJournal_2009-2_Williams.pdf Rattle: A Data Mining GUI for R], The R Journal Vol. 1/2, December 2009
 
=== EZManip ===
 
EZManip est un logiciels qui ressemble à RStudio et qui intègre aussi une interface pour les bibliothèques SAS (un logiciel statistique).
 
* https://ezmanip.com/


'''Installer un front-end plus convivial'''
=== Autres ===


On conseille également d'installer [http://www.rstudio.org/ RStudio], une interface à R améliorée. TStudio améliore par exemple la gestion des scripts (vos séquences d'instruction) et des packages (extensions).
Il existe aussi des logiciels qui utilisent R, et qui nécessite aucune connaissance au niveau du "langage de commande". Un exemple est [[IRaMuTeQ]], un logiciel d'analyse de texte.


== Packages, bibliographie et liens ==
== Packages, bibliographie et liens ==
Ligne 81 : Ligne 149 :
* [[text mining avec R]]
* [[text mining avec R]]
* [[Analyses statistiques avec R]]
* [[Analyses statistiques avec R]]
* [https://www.tidyverse.org/ Tidyverse] Collection des packages pour le ''data science'' tels que :
** [http://ggplot2.tidyverse.org/ ggplot2] pour créer des visualization des données
** [http://dplyr.tidyverse.org/ dplyr] pour la manipulation des données


=== R du côté serveur ===
=== R du côté serveur ===
Ligne 95 : Ligne 166 :


* [http://cran.r-project.org/doc/contrib/Short-refcard.pdf R Reference Card]. Résumé officiel des commandes R.
* [http://cran.r-project.org/doc/contrib/Short-refcard.pdf R Reference Card]. Résumé officiel des commandes R.
* [http://cran.r-project.org/doc/contrib/YanchangZhao-refcard-data-mining.pdf Yanchang Zhao's R Reference Card for Data Mining], aussi disponible à http://www.rdatamining.com/
* [http://cran.r-project.org/doc/contrib/YanchangZhao-refcard-data-mining.pdf Yanchang Zhao's R Reference Card for Data Mining], aussi disponible à http://www.rdatamining.com/
* [http://www.rdocumentation.org/ RDocumentation.org]. Manuel de référence complet pour la plupart des paquets. Correspond au help interne, mais plus simple à utiliser. Les aides sont regroupés par thème, par exemple [http://www.rdocumentation.org/domains/NaturalLanguageProcessing NaturalLanguageProcessing], sinon utilisez le formulaire de recherche.
* [http://www.inside-r.org/packages Package Reference] at inside-r


=== Sites R  ===
=== Sites R  ===
(tutoriels, exemples, etc.)
(tutoriels, exemples, etc.)


* [http://www.unige.ch/ses/sococ/cl/r/toc.html Tutoriels R de E.Horber] (UniGE)
* [http://www.inside-r.org/ Inside-r]
* [http://www.statmethods.net/ Statmethods.net] (Quick-R)
* [http://www.unige.ch/ses/sococ/cl/r/toc.html Tutoriels R de E.Horber] (UniGE) Français/Anglais
* [http://www.rdatamining.com/ RDM]
* [http://ww2.coastal.edu/kingw/statistics/R-tutorials/ R Tutorials] by William B. King. This is a good source for doing simple and advanced classical statistics with R
* [http://www.statmethods.net/ Statmethods.net] (Quick-R, site populaire pour débutants R ayant qqs. connaissances en stats orientés problème->solution)
* [http://www.rdatamining.com/ RDM] R Data Mining
* [https://www.datacamp.com/courses/introduction-to-r Introduction to R] (Tutoriel avec exercices). Demande de s'enregistrer
* [https://www.datacamp.com/courses/introduction-to-r Introduction to R] (Tutoriel avec exercices). Demande de s'enregistrer
* [https://software-carpentry.org/ Software-Carpentry]. Contient quelques tutoriels pour R.
* [http://r4ds.had.co.nz/ R for Data Science]. Principalement axé sur le traitement et visualisation des données
* [http://tryr.codeschool.com/ Try R]. Tutoriel in-browser introductif à la syntaxe de R (by Code School)
* [https://rafalab.github.io/dsbook/ Introduction to Data Science] par Rafael A. Irizarry, avec des applications/exemples avec R.
* [https://adv-r.hadley.nz/ Advanced R] par Hadley Wickham
* [http://happygitwithr.com/ Happy Git and GitHub for userR] par Jenny Bryan. Instructions détaillée sur l'installation et utilisation de R avec [[Git et Github]]
* [https://moderndive.com/ ModernDive: An Introduction to Statistical and Data Sciences via R] par Chester Ismay et Albert Y. Kim


=== Bibliographie ===
=== Bibliographie ===


* Adler, J. (2011). R, L’essentiel. Pearson.
* Adler, J. (2011). R, L’essentiel. Pearson.
* Burns, Patrick (2011). [http://www.burns-stat.com/pages/Tutor/R_inferno.pdf The R Inferno] (PDF).
* Beauguitte, L. (2012). Analyser les réseaux avec R (packages statnet, igraph et tnet). http://cel.archives-ouvertes.fr/docs/00/68/78/71/PDF/fmr12_analyse_de_graphe_avec_R.pdf
* Beauguitte, L. (2012). Analyser les réseaux avec R (packages statnet, igraph et tnet). http://cel.archives-ouvertes.fr/docs/00/68/78/71/PDF/fmr12_analyse_de_graphe_avec_R.pdf
* Barnier, J. (2011). L'analyse des réseaux avec R. http://alea.fr.eu.org/git/doc_reseaux_r.git/blob_plain/HEAD:/networks.pdf
* Barnier, J. (2011). L'analyse des réseaux avec R. http://alea.fr.eu.org/git/doc_reseaux_r.git/blob_plain/HEAD:/networks.pdf
* Chevalier, B. (2005). Logiciels libres Open source : qu'est-ce que c'est ? Paris : H & K.
* Chevalier, B. (2005). Logiciels libres Open source : qu'est-ce que c'est ? Paris : H & K.
* Cornillon, P.A. (2010). Statistiques avec R (2ème édition augmentée). Rennes : Presses Universitaires de Rennes.
* Cornillon, P.A. (2010). Statistiques avec R (2ème édition augmentée). Rennes : Presses Universitaires de Rennes.
* Howell, D. (1998). Méthodes statistiques en sciences humaines. Bruxelles : Editions De Boeck Université.
* Howell, D. (1998). Méthodes statistiques en sciences humaines. Bruxelles : Editions De Boeck Université.
* Huillet, J. Initiation à l’environnement R. http://cict.fr/~stpierre/doc-R.pdf
* Huillet, J. Initiation à l’environnement R. http://cict.fr/~stpierre/doc-R.pdf
* Jean, B. (2011). Du bon usage des licences libres. Framasoft (coll. Framabook).
* Jean, B. (2011). Du bon usage des licences libres. Framasoft (coll. Framabook).
* Millot, G. (2008). Comprendre et réaliser les tests statistiques à l’aide de R (1ère édition). Bruxelles : Editions De Boeck Université.
* Millot, G. (2008). Comprendre et réaliser les tests statistiques à l’aide de R (1ère édition). Bruxelles : Editions De Boeck Université.
* Smets-Solanes, J.P. (1999). Logiciels libres : liberté, égalité, business. Paris : Edispher.
* Smets-Solanes, J.P. (1999). Logiciels libres : liberté, égalité, business. Paris : Edispher.
* [http://en.wikibooks.org/wiki/R_Programming/Text_Processing R Programming/Text Processing] Wikibook.


== Remerciements ==
== Remerciements ==


Une première version de cette série a été crée par Donato C. Cereghetti dans une long article intitulé [[R]]. (2013). EduTech Wiki. Page consultée le 16:17, novembre 19, 2014 à partir de http://edutechwiki.unige.ch/fmediawiki/index.php?title=R&oldid=40471.
Une première version de cette série a été crée par Donato C. Cereghetti dans une long article intitulé [[R]]. (2013). EduTech Wiki. Page consultée le 16:17, novembre 19, 2014 à partir de http://edutechwiki.unige.ch/fmediawiki/index.php?title=R&oldid=40471.

Dernière version du 27 juin 2022 à 07:54

Analytique et exploration de données
Module: Tutoriels R ◀▬ ▬▶
Page d'entrée du module
Analytique et exploration de données
▬▶
à améliorer débutant
2022/06/27 ⚒⚒ 2014/11/19
Voir aussi
Catégorie: R

Introduction

R est un langage de programmation et un environnement open-source permettant le traitement des données et les analyses statistiques. Sur cette page nous proposons un tutoriel permettant de s’initier à cet environnement. Dans un premier temps, nous présenterons les bases du fonctionnement de R. Par la suite, nous introduirons le traitement des données alphanumériques (analyse qualitative). Dans un troisième temps nous introduirons le traitement des données numériques (analyse quantitative). Enfin, nous nous focaliserons sur la génération et l'analyse des graphes et réseaux.

Nous proposons plusieurs tutoriaux pratiques permettant d'introduire le lecteur au logiciel R.

Le logiciel R
Analyses statistiques
GUI R
Text mining avec R
Analytique de l'apprentissage avec R
Logiciels basés sur R

Pourquoi préférer R à d'autres logiciels de traitement de données ?

  • Il s’agit d’un logiciel gratuit à code source ouvert
  • Il est compatible avec les systèmes Windows, MAC OS et Linux
  • Il s’agit d’un logiciel très puissant et complet : en gros, il permet de tout faire !
  • Il est en essor permanent
  • En cas de problème, des milliers d'utilisateurs sont prêts à vous aider ! Cliquez ici pour accéder à une communauté française assez active
  • La syntaxe est relativement simple, et s'apparente beaucoup à celle de Matlab
  • R est très stable

Limites de R

  • L'interface standard n'est pas user-friendly. L’application RStudio et l’interface graphique R-Commander permettent de surmonter cette limite.

Publique cible

Le public cible de R est constitué par toute personne désirant manipuler, traiter et analyser des données numériques ou alphanumériques.

D’après cereghd0, il ne faut pas avoir des compétences informatiques particulières pour apprendre à utiliser R. Cela dit, des connaissances de base en programmation faciliteraient la tâche, notamment si on pense utiliser les paquets "text mining" de R.

Installation de R

Installer sur Windows et Mac

Pour installer R dirigez-vous sur http://cran.r-project.org/ et télécharger l’environnement convenant au système d’exploitation de votre ordinateur. Ensuite, installer aussi un "front-end" (voir ci-dessous).

Installer sur Ubuntu 16LTS avec l'installeur officiel (déconseillé !!)

sudo apt-get install r-base
Toutefois l'installation par défaut vous donne une version dépassée de R et qui incompatible avec certains paquets comme tm. Voir ci-dessous

Installer une version récente de R sur Ubuntu 16LTS

sudo echo "deb http://cran.rstudio.com/bin/linux/ubuntu xenial/" | sudo tee -a /etc/apt/sources.list
gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9
gpg -a --export E084DAB9 | sudo apt-key add -
sudo apt-get update
sudo apt-get install r-base r-base-dev

Il faut aussi réparer la configuration R pour Java, sinon on va rencontrer une erreur comme configure: error: Java interpreter '/usr/lib/jvm/default-java/jre/bin/java' does not work

sudo R CMD javareconf

Ensuite, pour avoir la librairie "tm" de R (et d'autres) il faut installer un paquet pour curl et pour XML

sudo apt-get install libcurl4-gnutls-dev
sudo apt install libxml2-dev

Installation de front-end plus conviviaux

RStudio

On conseille d'installer RStudio, une interface à R améliorée. RStudio améliore par exemple la gestion des scripts (vos séquences d'instruction) et des packages (extensions).

Il existe des installeurs pour Windows, Mac et Ubuntu/Debian.

RKWard

RKWard est une initiative plus récente et qui propose un véritable GUI, en tout cas pour certaines statistiques et visualisations.

Installation:

Les explications et les liens se trouvent dans le wiki de source forge
  • Windows
Soit on peut installer un paquet complet, soit on peut installer R et KDE séparément. La dernière solution est préférable (car cela vous évite d'installer une autre version de R) mais elle est plus compliquée...
  • Mac
Il faut installer R d'abord ensuite trouver un fichier *.dmg qui correspond à cette version
  • Sous Ubuntu:
sudo apt-get install RKWard
rkward

Rattle

Rattle est une interface graphique pour le data mining et qui tourne dans R et qui permet de faire qqs. analyses rapides, simplement.

Pour l'installation, lire:

Ce paquet permet de lire différent types de données, dont des fichiers CSV ou encore des *.txt (qu'on a par exemple exporté avec tm Corpus

Lire: Williams, G. (2009). Rattle: A Data Mining GUI for R, The R Journal Vol. 1/2, December 2009

EZManip

EZManip est un logiciels qui ressemble à RStudio et qui intègre aussi une interface pour les bibliothèques SAS (un logiciel statistique).

Autres

Il existe aussi des logiciels qui utilisent R, et qui nécessite aucune connaissance au niveau du "langage de commande". Un exemple est IRaMuTeQ, un logiciel d'analyse de texte.

Packages, bibliographie et liens

Learning Analytics Moodle, une production locale

cereghd0 a créé des fonctions permettant d'analyser les rapports de Moodle concernant l'activité des utilisateurs : Learning Analytics Moodle. Ce logiciel est destiné aux enseignants et aux chercheurs en technologies éducatives.

Packages utiles

Voir selon le type d'analyse, par exemple:

R du côté serveur

  • Rserve, a TCP/IP server which allows other programs to use facilities of R. Il existe un client PHP.
  • FastRweb, an infrastructure that allows any webserver to use R scripts for generating content on the fly, such as web pages or graphics. Marche avec Rserve.

Liens

Manuels et résumés

  • RDocumentation.org. Manuel de référence complet pour la plupart des paquets. Correspond au help interne, mais plus simple à utiliser. Les aides sont regroupés par thème, par exemple NaturalLanguageProcessing, sinon utilisez le formulaire de recherche.

Sites R

(tutoriels, exemples, etc.)

Bibliographie

  • Adler, J. (2011). R, L’essentiel. Pearson.
  • Chevalier, B. (2005). Logiciels libres Open source : qu'est-ce que c'est ? Paris : H & K.
  • Cornillon, P.A. (2010). Statistiques avec R (2ème édition augmentée). Rennes : Presses Universitaires de Rennes.
  • Howell, D. (1998). Méthodes statistiques en sciences humaines. Bruxelles : Editions De Boeck Université.
  • Jean, B. (2011). Du bon usage des licences libres. Framasoft (coll. Framabook).
  • Millot, G. (2008). Comprendre et réaliser les tests statistiques à l’aide de R (1ère édition). Bruxelles : Editions De Boeck Université.
  • Smets-Solanes, J.P. (1999). Logiciels libres : liberté, égalité, business. Paris : Edispher.

Remerciements

Une première version de cette série a été crée par Donato C. Cereghetti dans une long article intitulé R. (2013). EduTech Wiki. Page consultée le 16:17, novembre 19, 2014 à partir de http://edutechwiki.unige.ch/fmediawiki/index.php?title=R&oldid=40471.