« IRaMuTeQ » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Ligne 2 : Ligne 2 :


== Introduction ==
== Introduction ==
IRaMuTeQ est une interface de R proposant plusieurs outils d’analyse, dans le but d’analyser sur des corpus et des matrices.  
IRaMuTeQ est une interface de R proposant plusieurs outils d’analyse, dans le but d’analyser sur des corpus et des matrices. Dans cette page, pour le moment nous nous intéressons plutôt aux corpus dans le cadre de text mining plutôt que des matrices.


Cette interface propose les différents outils suivants:  
Cette interface propose les différents outils suivants intéressant pour le text mining:  
* Mise en forme du texte (Nettoyage du texte, lemmatisation, clé d’analyse…)
* Mise en forme du texte (Nettoyage du texte, lemmatisation, clé d’analyse…)
* Analyse statistique textuel
* Analyse statistique textuel
Ligne 12 : Ligne 12 :
**Nuage de mots
**Nuage de mots
**Réédition graphique
**Réédition graphique
== Installation ==
== Installation ==
* Il faut installer IRaMuTeQ disponible sur http://sourceforge.net/projects/iramuteq/.
* Il faut installer IRaMuTeQ disponible sur http://sourceforge.net/projects/iramuteq/.
Ligne 18 : Ligne 19 :
<br/>
<br/>
  [[image: dialogueIramuteqcheminR.png|frame|none|dialogueIramuteqcheminR]]
  [[image: dialogueIramuteqcheminR.png|frame|none|dialogueIramuteqcheminR]]
= Analyse de Corpus =
== Importer un corpus ==
Pour importer un fichier texte, il faut qu'il soit en format texte brut ( .txt)
* Fichier> importer un corpus
L'interface propose d'office de nettoyer le texte :
[[image: dialogueImportCorpus1.png|frame|none|dialogueImportCorpus1]]
[[image: dialogueImportCorpus2.png|frame|none|dialogueImportCorpus2]]
ce qui permet de mettre en forme le texte.


== Mise en forme du texte ==
== Mise en forme du texte ==
ATTENTION IRaMuTeQ est une interface sensible à la case (Chat ? chat). Les textes doivent être nettoyés pour qu’ils soient correctement analysés.  
ATTENTION IRaMuTeQ est une interface sensible à la case (Chat chat). Les textes doivent être nettoyés pour qu’ils soient correctement analysés.  
 
=== Nettoyage du texte ===


=== Texte du titre ===
Nettoyage du texte
Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes.
Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes.


Ligne 41 : Ligne 52 :
L’interface propose aussi de définir certaines clés d’analyse. En effet, dans certains contexte il n’est pas nécessaire de considérer l’ensemble des catégories grammaticales (surtout les mots outils) et donc il est possible de les modifier la sélection un paramètre (forme active ou supplémentaire).
L’interface propose aussi de définir certaines clés d’analyse. En effet, dans certains contexte il n’est pas nécessaire de considérer l’ensemble des catégories grammaticales (surtout les mots outils) et donc il est possible de les modifier la sélection un paramètre (forme active ou supplémentaire).


 
== Analyse statistique textuel==
== Spécificité et AFC ==
== Classification méthode de Reinert ==
== sources ==
* [http://www.iramuteq.org/documentation/fichiers/documentation_19_02_2014.pdf documentation IRaMuTeQ]
*


[[Catégorie:Analytique et exploration de données]]
[[Catégorie:Analytique et exploration de données]]

Version du 12 novembre 2014 à 11:08

IRaMuTeQ extension de R

Introduction

IRaMuTeQ est une interface de R proposant plusieurs outils d’analyse, dans le but d’analyser sur des corpus et des matrices. Dans cette page, pour le moment nous nous intéressons plutôt aux corpus dans le cadre de text mining plutôt que des matrices.

Cette interface propose les différents outils suivants intéressant pour le text mining:

  • Mise en forme du texte (Nettoyage du texte, lemmatisation, clé d’analyse…)
  • Analyse statistique textuel
  • Spécificité et AFC
  • Classification méthode de Reinert
    • Analyse de similitude
    • Nuage de mots
    • Réédition graphique

Installation



dialogueIramuteqcheminR

Analyse de Corpus

Importer un corpus

Pour importer un fichier texte, il faut qu'il soit en format texte brut ( .txt)

  • Fichier> importer un corpus

L'interface propose d'office de nettoyer le texte :

dialogueImportCorpus1
dialogueImportCorpus2

ce qui permet de mettre en forme le texte.

Mise en forme du texte

ATTENTION IRaMuTeQ est une interface sensible à la case (Chat ≠ chat). Les textes doivent être nettoyés pour qu’ils soient correctement analysés.

Nettoyage du texte

Mais IRaMuTeQ dispose d’un outil bien pratique permettant de nettoyé les textes.

  • Passer le corpus en minuscule
  • Retirer les caractères en dehors de cette liste
  • Remplacer des appostrophe par des espaces
  • Remplacer des tirets par des expaces
  • Conserver la ponctuation
  • Pas d’espaces entre deux formes

Lemmatisation

Il propose aussi un outil de lemmatisation. Ce dernier permet de transformer les verbes à l’aide d’un dictionnaire :

  • De mettre tous les verbes à l’infinitif
  • Les noms au singulier
  • Les adjectifs au masculin singulier

Clé d’analyse

L’interface propose aussi de définir certaines clés d’analyse. En effet, dans certains contexte il n’est pas nécessaire de considérer l’ensemble des catégories grammaticales (surtout les mots outils) et donc il est possible de les modifier la sélection un paramètre (forme active ou supplémentaire).

Analyse statistique textuel

Spécificité et AFC

Classification méthode de Reinert

sources