« IRaMuTeQ » : différence entre les versions
Ligne 39 : | Ligne 39 : | ||
Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes. | Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes. | ||
* Passer le corpus en minuscule | * Passer le corpus en minuscule : ceci supprime les problèmes de case (sélectionner d'office) | ||
* Retirer les caractères en dehors de cette liste | * Retirer les caractères en dehors de cette liste : retire les caractères cité (sélectionner d'office) | ||
* Remplacer des appostrophe par des espaces | * Remplacer des appostrophe par des espaces (sélectionner d'office) | ||
* Remplacer des tirets par des expaces | * Remplacer des tirets par des expaces (sélectionner d'office) | ||
* Conserver la ponctuation | * Conserver la ponctuation (pas sélectionner d'office, mais fortement conseiller dans la documentation) | ||
* Pas d’espaces entre deux formes | * Pas d’espaces entre deux formes : ceci permet d'effacer les espaces entre les mots. | ||
=== Lemmatisation === | === Lemmatisation === | ||
Il propose aussi un outil de lemmatisation. Ce dernier permet de transformer les verbes à l’aide d’un dictionnaire : | Il propose aussi un outil de lemmatisation. Ce dernier permet de transformer les verbes à l’aide d’un dictionnaire : |
Version du 12 novembre 2014 à 11:14
IRaMuTeQ extension de R
Introduction
IRaMuTeQ est une interface de R proposant plusieurs outils d’analyse, dans le but d’analyser sur des corpus et des matrices. Dans cette page, pour le moment nous nous intéressons plutôt aux corpus dans le cadre de text mining plutôt que des matrices.
Cette interface propose les différents outils suivants intéressant pour le text mining:
- Mise en forme du texte (Nettoyage du texte, lemmatisation, clé d’analyse…)
- Analyse statistique textuel
- Spécificité et AFC
- Classification méthode de Reinert
- Analyse de similitude
- Nuage de mots
- Réédition graphique
Installation
- Il faut installer IRaMuTeQ disponible sur http://sourceforge.net/projects/iramuteq/.
- Il faut parfois indiquer le chemin où se trouve R : >Edition> Préférence
Analyse de Corpus
Importer un corpus
Pour importer un fichier texte, il faut qu'il soit en format texte brut ( .txt)
- Fichier> importer un corpus
L'interface propose d'office de nettoyer le texte :
- Des préférence générales (attention le choix de la langue est importante car c'est le lien avec le dictionnaire)
- Des options de nettoyage
ce qui permet de mettre en forme le texte.
Mise en forme du texte
ATTENTION IRaMuTeQ est une interface sensible à la case (Chat ≠ chat). Les textes doivent être nettoyés pour qu’ils soient correctement analysés.
Nettoyage du texte
Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes.
- Passer le corpus en minuscule : ceci supprime les problèmes de case (sélectionner d'office)
- Retirer les caractères en dehors de cette liste : retire les caractères cité (sélectionner d'office)
- Remplacer des appostrophe par des espaces (sélectionner d'office)
- Remplacer des tirets par des expaces (sélectionner d'office)
- Conserver la ponctuation (pas sélectionner d'office, mais fortement conseiller dans la documentation)
- Pas d’espaces entre deux formes : ceci permet d'effacer les espaces entre les mots.
Lemmatisation
Il propose aussi un outil de lemmatisation. Ce dernier permet de transformer les verbes à l’aide d’un dictionnaire :
- De mettre tous les verbes à l’infinitif
- Les noms au singulier
- Les adjectifs au masculin singulier
Clé d’analyse
L’interface propose aussi de définir certaines clés d’analyse. En effet, dans certains contexte il n’est pas nécessaire de considérer l’ensemble des catégories grammaticales (surtout les mots outils) et donc il est possible de les modifier la sélection un paramètre (forme active ou supplémentaire).