IRaMuTeQ

De EduTech Wiki
Aller à la navigation Aller à la recherche

IRaMuTeQ extension de R

Introduction

IRaMuTeQ est une interface de R proposant plusieurs outils d’analyse, dans le but d’analyser sur des corpus et des matrices. Dans cette page, pour le moment nous nous intéressons plutôt aux corpus dans le cadre de text mining plutôt que des matrices.

Cette interface propose les différents outils suivants intéressant pour le text mining:

  • Mise en forme du texte (Nettoyage du texte, lemmatisation, clé d’analyse…)
  • Analyse statistique textuel
  • Spécificité et AFC
  • Classification méthode de Reinert
  • Analyse de similitude
  • Nuage de mots
  • Réédition graphique

Ce qui est bien pratique, c'est que l'interface fait tout toute seule.

Installation



dialogueIramuteqcheminR
  • Parfois pour faire tourner l'interface, certaines bibliothèques sont nécessaire pour exécuter certaines fonctionnalité.
    • Pour les courageux IRaMuTeQ vous dit lesquels
    • Pour les fénéants (comme moi) il propose de les installer lui même (il ouvre le shell pour installer les bibliothèques)

Analyse de Corpus

Importer un corpus

Pour importer un fichier texte, il faut :

  • qu'il soit en format texte brut ( .txt)
  • qu'il y ait au début du texte 4 étoiles ****
  • contenir une variable de type : *var_1

Procédure

Fichier> importer un corpus

L'interface propose d'office de nettoyer le texte :

  • Des préférence générales (attention le choix de la langue est importante car c'est le lien avec le dictionnaire)
dialogueImportCorpus1
  • Des options de nettoyage
dialogueImportCorpus2

ce qui permet de mettre en forme le texte.

Mise en forme du texte

ATTENTION IRaMuTeQ est une interface sensible à la case (Chat ≠ chat). Les textes doivent être nettoyés pour qu’ils soient correctement analysés.

Nettoyage du texte

Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes.

  • Passer le corpus en minuscule : ceci supprime les problèmes de case (sélectionner d'office)
  • Retirer les caractères en dehors de cette liste : retire les caractères cité (sélectionner d'office)
  • Remplacer des appostrophe par des espaces (sélectionner d'office)
  • Remplacer des tirets par des expaces (sélectionner d'office)
  • Conserver la ponctuation (pas sélectionner d'office, mais fortement conseiller dans la documentation)
  • Pas d’espaces entre deux formes : ceci permet d'effacer les espaces entre les mots.
dialogueImportCorpus2

Et voilà, on est prêt à travailler sur le texte !

Lemmatisation

(Attention il faut bien sélectionner la langue du corpus)
L'interface propose aussi un outil de lemmatisation. Ce dernier permet de transformer les verbes à l’aide d’un dictionnaire :

  • De mettre tous les verbes à l’infinitif
  • Les noms au singulier
  • Les adjectifs au masculin singulier

Cette option est automatiquement proposée à l'exécution de chaque calcul statistique par une boîte de dialogue.

Clé d’analyse

L’interface propose aussi de définir certaines clés d’analyse. En effet, dans certains contexte il n’est pas nécessaire de considérer l’ensemble des catégories grammaticales (surtout les mots outils) et donc il est possible de les modifier la sélection un paramètre (forme active ou supplémentaire).

Analyse statistique textuel

Selon le mode d’emploi de IRaMuTeQ, « Cette analyse propose des statistiques simples sur les corpus textuels : effectifs de toutes les formes, effectifs des formes actives et supplémentaire, liste des hapax.

Résultats

Sous l’onglet global, vous trouverez plusieurs informations sur le corpus.

  • Nombre uci : représente le nombre de textes que contient le corpus. Si vous vous rappelez bien chaque texte doit commencer impérativement par *****
  • Nombre d’occurrence : le nombre de mots du corpus (attention le nombre est différent dans le cas où le corpus est lemmatiser ou non)
  • Nombre de forme : le nombre de formes dans le corpus (attention le nombre est différent dans le cas où le corpus est lemmatiser ou non)

Il existe une différence entre forme et occurrence dans le cas de l’utilisation du dictionnaire d’expression ou non.

Mot d’origine Sans dictionnaire Avec dictionnaire
Vis-à-vis 3 occurrences, 2 formes 1 occurrence, 1 forme
Aujourd’hui 2 occurrences, 2 formes 1 occurrence, 1 forme
  • Le nombre d’Hapax : le nombre de mots apparaissant une seule fois dans le corpus
  • Moyenne d’occurrence par forme : Nombre de forme d’occurrence / Nombre de formes
  • Le graphique représente les sur l’axe des x les logarithmes des rangs et sur celui des y les logarithmes de fréquences des formes

Les tableaux

Les onglets suivants présentent des tableaux représentant la liste des formes (dans la colonne forme), leurs nombre (sous nb) et leur catégorie grammaticale (sous type). Le classement se fait dans l’ordre décroissant de la colonne nombre et alphabétique de la colonne forme. Les différents onglets présentent une sélection de formes différentes.

  • Sous l’onglet formes actives : présente le tableau regroupant uniquement les formes actives sélectionnées
  • Sous l’onglet Forme supplémentaire : présente le tableau regroupant uniquement les formes supplémentaires sélectionnées (celle qui ne sont pas actives)
  • Sous l’onglet Total : on retrouve un tableau contenant toutes les formes
  • Sous l’onglet hapax : Ce tableau présente tous les mots ayant une unique occurrence dans le corpus.

Menu supplémentaire de l’analyse textuelle

Dans les tableaux, il est possible grâce au clic droit d’afficher pour chaque forme : les formes associées (qui disparaissent lors de la lemmatisation) et le concordancier (ce qui affiche les formes dans leur contexte).

Un autre menu supplémentaire est disponible, en selectionnant l’analyse dans le navigateur à gauche de l’écran. Ce dernier propose quatres fonctionnalités supplémentaire :

  • Informations : pour récupérer des informations propres à l’analyse
  • Exporter le dictionnaire : ce qui permet d’extraire un fichier csv contenant : la forme, le lemme, type grammatical et l’effectif (séparer par des tabulations).
  • Exporter le dictionnaire des lemmes : ce qui permet d’extraire un fichier csv contenant : le lemme, la première forme et son effectif et la deuxième forme et son effectif.
  • Supprimer de l’historique

Spécificité et AFC

Classification méthode de Reinert

Analyse de similitude

Nuage de mots

sources