« Analyses statistiques avec R » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Ligne 101 : Ligne 101 :
  rep('H', 20)
  rep('H', 20)


Pour générer un vecteur logique, utilisez les opérateurs >, >=, <, <=, ==, != :
Pour générer un '''vecteur logique''', utilisez les opérateurs >, >=, <, <=, ==, != :
  10 == (2+1) # Donne FALSE car 10 est différent de 3
  10 == (2+1) # Donne FALSE car 10 est différent de 3
  10 != 3 # Donne TRUE car 10 est différent de 3
  10 != 3 # Donne TRUE car 10 est différent de 3
Ligne 114 : Ligne 114 :
  Age
  Age
  Sexe
  Sexe
Pour sélectionner une partie d'un vecteur, utilisez '''l'opérateur de sélection''' [ ]. Etudiez les exemples suivants :
X = 10:20
X[3] # Donne le troisième élément du vecteur X
X[c(6,9)] # Donne le sixième et neuvième élément du vecteur X
X[3:5] # Donne le troisième quatrième et cinquième élément du vecteur X
X[7:5] # Donne le septième, le sixième et le cinquième élément du vecteur X
X[-c(4,7)] # Donne X sans le quatrième et septième élément du vecteur X
X[-(1:3)] # Donne X sans les trois premiers éléments
X[(X<15)] # Donne les éléments de X inférieur à 15
X[(X<17) & (X>13)] # Donne les éléments de X inférieurs à 17 ET supérieurs à 13
X[(X<13) | (X>17)] # Donne les éléments de X inférieurs à 13 OU supérieurs à 17


=== Les matrices ===
=== Les matrices ===

Version du 9 octobre 2012 à 19:40

Introduction

R est un langage de programmation et un environnement open-source permettant le traitement des données et les analyses statistiques. Sur cette page nous proposons un tutoriel permettant de s’initier à cet environnement. Dans un premier moment, nous présenterons les bases du fonctionnement de R. Par la suite, nous introduirons le traitement des données alphanumériques (analyse qualitative). Dans un troisième moment nous introduirons le traitement des données numériques (analyse quantitative). Enfin, nous présenterons les structures de contrôle.

Pourquoi préférer R à d'autres logiciels de traitement de données ?

  • Il s’agit d’un logiciel gratuit à code source ouvert
  • Il est compatible avec les systèmes Windows, MAC OS et Linux
  • Il s’agit d’un logiciel très puissant et complet
  • Il est en essor permanent
  • En cas de problème, des milliers d'utilisateurs sont prêts à vous aider !

Fondements de R

Installation de R

Pour installer R dirigez-vous sur http://cran.r-project.org/ et télécharger l’environnement convenant au système d’exploitation de votre ordinateur.

Introduction à l'environnement R

Voici comment l’environnement R se présente une fois l’application ouverte :


R.png


L’interface de l’environnement R se présente par une fenêtre contenant une barre de menus, une barre d’outils et la console R. Cette dernière permet d’introduire des commandes R (ou expressions).

L’interprétateur de R traduit et exécute les commandes introduites par l’utilisateur.

Le prompt de R est représenté par le symbole > . Ce caractère signifie que l’interprétateur de R attend l’introduction d’une commande de la part de l’utilisateur.

Remarquons que l’interface standard graphique de R paraît élémentaire et peu ergonomique. Plusieurs interfaces graphiques existent et peuvent être installées. Nous recommandons l’installation de R-Commander et R-Studio.

L'aide de R

La fonction help.start() permet d’acceder à l’aide en ligne de R. La fonction help() ou ? permet d'obtenir de l’aide sur des commandes R spécifiques. Exemples :

help.start()
help(help) # lance la documentation de la fonction « help » 
?(mean) # lance la documentation de la fonction « mean »

Commentaires

Le symbole # permet d'ajouter des commentaires dans R. Tout ce qui est écrit après ce symbole n'est pas interprété par R. Prenons l’exemple suivant :

3 + 2 # Ceci est un commentaire... remarquez que R interprète ce qui vient avant le symbole # et nous donne le résultat de l'addition

Les commentaires sont très utiles en programmation pour décrire ce que le code fait.

Les objets de R

Les objets sont des entités stockés dans la mémoire de R. Il est important créer des objets afin de pouvoir les manipuler dans un deuxième moment. Les opérateurs d’assignation <- et -> permettent de créer et de stocker des objets dans la session de R courante. Exemples :

Poids <- 80 # L’objet Poids reçoit la valeur 80
80 -> Poids # L’objet Poids reçoit la valeur 80

Dans R, différents types d'objets peuvent être crées et traités. Voici les principaux objets :

a <- NULL # a est un objet nul, vide
b <- TRUE # b est un objet logique, booléen
c <- 101 # c est un objet numérique
d <- "Bonjour à tout le monde!" # d est un objet alphanumérique (il contient une chaîne des caractères)

Pour connaître le mode (type) d'un objet, utilisez la commande mode() :

mode(Poids)
mode(a)
mode(b)
mode(c)
mode(d)

Pour afficher la valeur d'un objet, on peut utiliser la fonction print(). Altérnativement on peut introduire tout simplement le nom de l’objet à afficher :

print(Poids)
Poids
Print(a)
a

Pour lister les objets existant dans la session de R, utilisez la fonction ls() ou objects() :

ls()
objects()

Enfin, on peut supprimer des objets avec la fonction rm() :

rm(Poids) # L'objet Poids est supprimé
rm(a) # L’objet a est supprimé
rm(b, c, d) # Les objets b, c et d sont supprimés

Dans les prochaines sections, nous présenterons les objets fondamentaux de R : les vecteurs, les matrices et les data-frames.

Les vecteurs

Un vecteur est un objet atomique : tous ses éléments sont caractérisés par le même mode (ou type). Plusieurs méthodes peuvent être utilisées pour générer un vecteur numérique. Le plus important est le collecteur c() :

c(3, 4, 1, 3) # vecteur numérique de longueur 4

Altérnativement, vous pouvez utiliser l'opérateur : , la fonction seq et la fonction rep :

1:15
seq(1,5, by = 0.2)
seq(1,5, length=10)
rep(1,10)
rep(1:3, times = 3)
rep(1:3, each = 3)
rep(1:3, times = 3, each = 2)

Pour générer un vecteur alphanumérique, utilisez le collecteur c() associé à des guillemets :

c('H', 'F', 'F', 'H', 'F')

Alternativement, vous pouvez utiliser la fonction rep :

rep('H', 20)

Pour générer un vecteur logique, utilisez les opérateurs >, >=, <, <=, ==, != :

10 == (2+1) # Donne FALSE car 10 est différent de 3
10 != 3 # Donne TRUE car 10 est différent de 3
10 >= 7 # Donne TRUE car 10 est supérieur égal à 7
1:10 == 6 # Donne un vecteur logique de longueur 10. La valeur TRUE apparaît quand la condition est satisfaite ; la valeur FALSE apparaît quand la condition n'est pas satisfaite

Rappelons que les opérateurs <- et -> permettent de sauvegarder des objets dans la mémoire de R. Créons un vecteur numérique Age et un vecteur alphanumérique Sexe à travers les commandes suivantes :

Age <- c(19, 31, 28, 18, 25, 23, 27, 20)
Sexe <- c('F', 'H', 'F', 'H', 'H', 'F', 'H', 'F')

Affichons enfin les deux vecteurs avec les commandes :

Age
Sexe

Pour sélectionner une partie d'un vecteur, utilisez l'opérateur de sélection [ ]. Etudiez les exemples suivants :

X = 10:20
X[3] # Donne le troisième élément du vecteur X
X[c(6,9)] # Donne le sixième et neuvième élément du vecteur X
X[3:5] # Donne le troisième quatrième et cinquième élément du vecteur X
X[7:5] # Donne le septième, le sixième et le cinquième élément du vecteur X
X[-c(4,7)] # Donne X sans le quatrième et septième élément du vecteur X
X[-(1:3)] # Donne X sans les trois premiers éléments
X[(X<15)] # Donne les éléments de X inférieur à 15
X[(X<17) & (X>13)] # Donne les éléments de X inférieurs à 17 ET supérieurs à 13
X[(X<13) | (X>17)] # Donne les éléments de X inférieurs à 13 OU supérieurs à 17

Les matrices

Les data frames

Charger des jeux des données de R

Importer des bases des données

Traitement des données alphanumériques

Traitement des données numériques

Programmation et structures de contrôle

Bibliographie

  • Adler, J. (2011). R, L’essentiel. Pearson.
  • Chevalier, B. (2005). Logiciels libres Open source : qu'est-ce que c'est ? Paris : H & K.
  • Cornillon, P.A. (2010). Statistiques avec R (2ème édition augmentée). Rennes : Presses Universitaires de Rennes.
  • Fox, J. The R Commander: A Basic-Statistics Graphical User Interface to R. http://www.jstatsoft.org/v14/i09/paper
  • Howell, D. (1998). Méthodes statistiques en sciences humaines. Bruxelles : Editions De Boeck Université.
  • Huillet, J. Initiation à l’environnement R. http://cict.fr/~stpierre/doc-R.pdf
  • Jean, B. (2011). Du bon usage des licences libres. Framasoft (coll. Framabook).
  • Millot, G. (2008). Comprendre et réaliser les tests statistiques à l’aide de R (1ère édition). Bruxelles : Editions De Boeck Université.
  • Smets-Solanes, J.P. (1999). Logiciels libres : liberté, égalité, business. Paris : Edispher.