Analytique et exploration de données
Module: Outils text mining

⚐ à améliorer	☸ intermédiaire
⚒ 2015/09/04	⚒⚒ 2014/11/19
Voir aussi
Text mining avec R
Catégorie: Outils text mining

IRaMuTeQ un outil d'analyse de texte qui implémente la méthode "Alceste" avec R. Cette page s'inspire fortement de la documentation IRaMuTeQ.

Afin de faciliter la tâche je vous propose de télécharger un corpus déjà mis en forme : corpus

Introduction

IRaMuTeQ est une interface de R proposant plusieurs outils d’analyse, dans le but d’analyser sur des corpus et des matrices. Dans cette page, pour le moment nous nous intéressons plutôt aux corpus dans le cadre de text mining plutôt que des matrices.

Cette interface propose les différents outils suivants intéressant pour le text mining:

Mise en forme du texte (Nettoyage du texte, lemmatisation, clé d’analyse…)
Analyse statistique textuel
Spécificité et AFC
Classification méthode de Reinert
Analyse de similitude
Nuage de mots
Réédition graphique

Ce qui est bien pratique, c'est que l'interface fait tout toute seule.

Installation

Il faut installer IRaMuTeQ disponible sur http://sourceforge.net/projects/iramuteq/.
Il faut parfois indiquer le chemin où se trouve R : >Edition> Préférence

Parfois pour faire tourner l'interface, certaines bibliothèques sont nécessaire pour exécuter certaines fonctionnalité.
- Pour les courageux IRaMuTeQ vous dit lesquels
- Pour les fénéants (comme moi) il propose de les installer lui même (il ouvre le shell pour installer les bibliothèques)

Analyse de Corpus

Importer un corpus

Pour importer un fichier texte, il faut :

qu'il soit en format texte brut ( .txt)
qu'il y ait au début du texte 4 étoiles ****
contenir une variable de type : *var_1

Procédure

Fichier> importer un corpus

L'interface propose d'office de nettoyer le texte :

Des préférence générales (attention le choix de la langue est importante car c'est le lien avec le dictionnaire)

Des options de nettoyage

ce qui permet de mettre en forme le texte.

Mise en forme du texte

ATTENTION IRaMuTeQ est une interface sensible à la case (Chat ≠ chat). Les textes doivent être nettoyés pour qu’ils soient correctement analysés.

Nettoyage du texte

Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes.

Passer le corpus en minuscule : ceci supprime les problèmes de case (sélectionner d'office)
Retirer les caractères en dehors de cette liste : retire les caractères cité (sélectionner d'office)
Remplacer des appostrophe par des espaces (sélectionner d'office)
Remplacer des tirets par des expaces (sélectionner d'office)
Conserver la ponctuation (pas sélectionner d'office, mais fortement conseiller dans la documentation)
Pas d’espaces entre deux formes : ceci permet d'effacer les espaces entre les mots.

Et voilà, on est prêt à travailler sur le texte !

Lemmatisation

(Attention il faut bien sélectionner la langue du corpus)
L'interface propose aussi un outil de lemmatisation. Ce dernier permet de transformer les verbes à l’aide d’un dictionnaire :

De mettre tous les verbes à l’infinitif
Les noms au singulier
Les adjectifs au masculin singulier

Cette option est automatiquement proposée à l'exécution de chaque calcul statistique par une boîte de dialogue.

Clé d’analyse

L’interface propose aussi de définir certaines clés d’analyse. En effet, dans certains contexte il n’est pas nécessaire de considérer l’ensemble des catégories grammaticales (surtout les mots outils) et donc il est possible de les modifier la sélection un paramètre (forme active ou supplémentaire).

Analyse statistique textuel

Selon le mode d’emploi de IRaMuTeQ, « Cette analyse propose des statistiques simples sur les corpus textuels : effectifs de toutes les formes, effectifs des formes actives et supplémentaire, liste des hapax.

Résultats

Sous l’onglet global, vous trouverez plusieurs informations sur le corpus.

Nombre uci : représente le nombre de textes que contient le corpus. Si vous vous rappelez bien chaque texte doit commencer impérativement par *****
Nombre d’occurrence : le nombre de mots du corpus (attention le nombre est différent dans le cas où le corpus est lemmatiser ou non)
Nombre de forme : le nombre de formes dans le corpus (attention le nombre est différent dans le cas où le corpus est lemmatiser ou non)

Il existe une différence entre forme et occurrence dans le cas de l’utilisation du dictionnaire d’expression ou non.

Mot d’origine	Sans dictionnaire	Avec dictionnaire
Vis-à-vis	3 occurrences, 2 formes	1 occurrence, 1 forme
Aujourd’hui	2 occurrences, 2 formes	1 occurrence, 1 forme

Le nombre d’Hapax : le nombre de mots apparaissant une seule fois dans le corpus
Moyenne d’occurrence par forme : Nombre de forme d’occurrence / Nombre de formes
Le graphique représente les sur l’axe des x les logarithmes des rangs et sur celui des y les logarithmes de fréquences des formes

Les tableaux

Les onglets suivants présentent des tableaux représentant la liste des formes (dans la colonne forme), leurs nombre (sous nb) et leur catégorie grammaticale (sous type). Le classement se fait dans l’ordre décroissant de la colonne nombre et alphabétique de la colonne forme. Les différents onglets présentent une sélection de formes différentes.

Sous l’onglet formes actives : présente le tableau regroupant uniquement les formes actives sélectionnées
Sous l’onglet Forme supplémentaire : présente le tableau regroupant uniquement les formes supplémentaires sélectionnées (celle qui ne sont pas actives)
Sous l’onglet Total : on retrouve un tableau contenant toutes les formes
Sous l’onglet hapax : Ce tableau présente tous les mots ayant une unique occurrence dans le corpus.

Menu supplémentaire de l’analyse textuelle

Dans les tableaux, il est possible grâce au clic droit d’afficher pour chaque forme : les formes associées (qui disparaissent lors de la lemmatisation) et le concordancier (ce qui affiche les formes dans leur contexte).

Un autre menu supplémentaire est disponible, en selectionnant l’analyse dans le navigateur à gauche de l’écran. Ce dernier propose quatres fonctionnalités supplémentaire :

Informations : pour récupérer des informations propres à l’analyse
Exporter le dictionnaire : ce qui permet d’extraire un fichier csv contenant : la forme, le lemme, type grammatical et l’effectif (séparer par des tabulations).
Exporter le dictionnaire des lemmes : ce qui permet d’extraire un fichier csv contenant : le lemme, la première forme et son effectif et la deuxième forme et son effectif.
Supprimer de l’historique

Spécificité et AFC

« Cette outil permet une analyse factorielle des correspondances sur un tableau de contingences qui crois les formes actives et les variables ». Il faut donc avoir avant l’import du corpus défini certaines variables.

Paramètre de l’analyse

Lorsque nous lançons l’outil, l’interface nous propose un choix sur des variables.

Sélection par : (variables ou modalités)
Choix : il faut sélectionner une variable dans la liste
Indices : deux possibilités de calcul :
- Chi2
- hypergéométrique
Effectif minimum : seuls sont considéré les formes supérieur au seuil dans le calcul.

Résultats

Les résultats sont disponibles sous plusieurs onglets :

Les deux premiers Formes/Types onglets représentent des listes de formes ou de catégories grammaticales et le scores par modalité.
Les onglets d’Effectifs représentent l’effectif de chaque forme/lemme ou catégorie grammaticale dans les textes présentant la modalité de la variable.
'Les onglets d’Effectif relatifs' : calcul l’effectif en pour mille.
L’onglet AFC : présente le graphique AFC.

Nous trouvons un menu si nous cliquons sur certaines formes du clic droit :

Formes associées
Concordancier
Graphique
Segment de texte caractéristiques

Classification méthode de Reinert

La méthode de Reindert est une classification hiérarchique descendante selon 3 modalités :

Simple sur texte : dans leur intégralité pour rapprocher les textes les plus proches
Simple sur Segment de texte : rapprochement de segments de texte
Double sur Rst : Les lignes sont considérées comme Rst. Deux analyses sont faites : en changeant le nombre de formes actives par Rst.

Options

Classification : permet de choisir le mode de classification.
Taille Rst 1 et 2 : indique le nombre de formes actives par Rst dans la méthode double sur Rst.
Nombre de classes terminales de la phase 1 : nombre de classe de la première partie de la classification.
Nombre minimum de segments par classe : minimum des segments pour qu’ils soient considérés comme classe.
Fréquence minimum d’une forme analysée : ce n’est pas une option (c’est juste une information).
Nombre maximum de formes analysées : fréquence minimum que doit avoir une forme pour être conservée
Méthode pour svd : algorithme utilisé dans la décomposition
Mode patate (+rapide, -précis) : donne la patate à l’analyse en devenant un peu moins précis

Résultats

CHD

Cette analyse est composée de deux parties :

Une statisitque textuelle comme décrite plus haut
Un dendogramme : représentant la partition et la taille des classes en %. Si les classes sont notées 0, c’est qu’elles ne sont pas retenue.

Une icône à gauche permet de refaire le dendogramme.

Profils

Sous l’onglet profils, nous retrouvons plusieurs tableaux des différentes classes. Il contient 8 colonnes :

Num : numéro de ligne (idetifiant)
Eff. S. t. : effectif des segments de texte
Eff. Total : Effectif total des segments
Pourcentage : eff ST/ ef Total
Chi2 : force du lien entre formes et classes
Type : cat. grammaticale
Forme : forme ou lemme
P : seuil d significativité associé au Chi2

Menu supplémentaire=

En Cliquant sur le clic droit sur une ligne de la classe nous intéressant un menu apparaît :

Les onglets suivants sont dépendants de la ligne sélectionnée

Forme associées : effectif des formes dans un lemme.
Chi2 par classe : graphique du Chi 2 de la forme à chaque classe.
Chi2 par classe + dendro : même graphique mais projeté en dendro
ChiE modalités de la variable : Chi2 d’association des modalités de la variable sélectionnée à chacune des classe.
Graphe du mot : graphe de similitude des formes de la classe
Concordancier : concordancier de la forme /lemme sélectionnée.
Outil du CNRTL : Interroge la base de données du Centre National de Ressources Textuelles et Lexicales pour la forme sélectionnée.

Indépendant de la ligne sélectionnée

Graphe de la classe : analyse de similitude sur un tableau absence/présence.
Segments répétés : Effectifs et taille des segments
Segments de texte caractéristiques : liste des segments de texte caractéristique de la classe
Exporter… : exporte tous les segments de texte de la classe. Ce qui peut constituer un nouveau corpus.

AFC

Sous cette onglet on retrouve l’AFC (analyse factorielle des correspondances) déduit de la classification classés sous trois onglets :

AFC : graphique AFC (malhereusement pour le moment ça bug).
Facteurs : valeur propore, pourcentage et pourcentage cumulé.
Graph 3D : graphique 3D des distances.

Menu supplémentaire

Le menu disponible en cliquant à droite dans le navigateur de gauche

Information : caractéristique choisie pour la classification
Ouvrir… : affiche les formes significatives absentes des classes.
Profils des segments répétés : Calcule les profils des segments répétés.
Profils des types : Calcule les profils des catégories grammaticales.
Exporter le corpus : permet d’exporter le corpus découpé en segment.
Corpus en couleur : crée un fichier html avec chaque segment de la couleur de la classe.
Outil de navigation : Matrice de toutes les formes avec Chi2 de liaison à chaque classe
Statistiques par classe : crée un .csv qui contient un tableau de toutes les classes (contenant : le nombre total d’occurrences, le nombre d formes différentes, le nombre d’hapax (mot n’ayant qu’une occurrence), le nombre de segments, ration hapax/forme
Rapport : crée un fichier .txt avec les statistiques générales
Supprimer de l’historique

Analyse de similitude

Grâce à IRaMuTeQ, nous avons accès facilement à la bibliothèque de graphe de R : « igraph ». Une fois sélectionné, l’interface nous propose les préférences de lemmatisation et des formes actives comme dans le cas de la statistique textuelle. Une fois notre choix fait, nous nous trouvons dans un menu de paramètre le l’analyse de similitude contenant :

Une matrice contenant les formes (par défaut elles sont toutes sélectionnées) et leurs fréquence associées.
Et deux onglets :
- Paramètre du graphe
- Paramètre graphique

Dans l’onglet Paramètres du graph nous rencontrons plusieurs paramètres permettant de choisir les caractéristiques du graphe :

Indice : permet de choisir le type d’indice de similitude
Layout : est le mode de présentation des données (random, cercle, Fruchterman Reingold, Kamada-Kawï, graphopt.

Type de graph : est la méthode de présentation du graphe : statique (png ou svg), Dynamique (permet d’organiser les graphes et de conserver les coordonnées) et 3D (graphe 3D)
Arbre Maximum : calcul de l’arbre maximum
Format de l’image : .png ou .svg
Graph à seuil : élimine les arrête <= au seuil fixé
Texte sur les sommets : écrit le texte sur les sommets du graphe
Indices sur les arêtes : écrit les indices sur les arrêtes
Taille du texte : permet de modifier la taille du texte du graph
Communauté : Permet le calcul de communauties (des sous-graphes denses spécifique à igraph)
Halo : représente les communauties en couleurs
Sélectionner une variable : permet de sélectionner des variables préalablement intégrée dans le corpus.

Dans l’ongle Paramètres graphique nous trouvons les paramètres suivants qui permettent de modifier la représentation visuel des graphes:

Taille du graphique (hauteur et largeur) : Taille de l’image en px.
Taille des sommets proportionnels à l’effectif : taille des sommets proportionnels à l’effectif de la forme.
Largeur des arêtes proportionnelle à l’effectif : largeur des arrête proportionnel à l’effectif de la forme.
Largeur des arêtes proportionnelle à l’indice : largeur de l’arrête proportionnel à la valeur de l’indice
Gradiant de gris sur les textes en fonction de l’effectif : la couleur s’adapte en fonction de l’effectif
Couleur des sommets et des arrêtes : change la couleur des sommets et des arrêtes
Taille des sommets unique : taille unique pour tous les sommets du graphe

Pour les graphes 3D

Transparence des sphères : rend les sphères transparentes
Faire un film : fait un film de la représentation

Une fois toutes ces tâche effectuée, le graphe se construit.

Exemple d'utilisation

Voici différents graphe construit avec le corpus Alice.txt

Graphique Random

Ce graphe représente les liens entre les mots et la fréquence de ces liens. Les mots sont disposés aléatoirement.

Graphique Cercle

Ce graphe représente les liens entre les mots et la fréquence de ces liens. Les mots sont disposés en cercle.

Graphique Fruchterman et Reingold

Ce graphe orienté donne un poids à chaque mots (noeud) représenté par la grosseur des liens.

Graphique Kamada-Kawaï

Ce graphe orienté donne un poids à chaque mots (noeud) représenté par la grosseur des liens. La longueur des liens sont égales.

Graphique opt

Nuage de mots

IRaMuTeQ permet de créer facilement un nuage de mot. Tout d’abord, il nous propose un premier menu de préférence pour la lemmatisation ou non et le choix des formes actives. Puis il nous propose des préférences relatives au wordCloud lui-même :

Hauteur et Largeur : pour paramétrer la taille du nuage.
Format de l’image : par défaut png, mais il nous propose aussi svg.
Nombre maximum de formes : Nombre maximum de forme dans le nuage.
Formes reconnues : active ou supplémentaire.
Taille du texte : nous permet de donner la taille minimum et maximum du texte.
Couleur du texte : permet de choisir la couleur du texte.
Couleur du fond : permet de choisir la couleur du fond.

Puis une liste contenant les formes apparait. Par défaut toutes les formes sont sélectionnées, mais il est possible de sélectionner certaines formes en cliquant dessus. Pour en sélectionner plusieurs, il faut appuyer sur la touche ctrl et cliquer avec la souris. Une fois toutes ces étapes passées, le nuage se construit automatiquement.

sources

IRaMuTeQ

Sommaire

Introduction

Installation

Analyse de Corpus