« Text mining avec R » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
 
(178 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
{{tutoriel
|fait_partie_du_cours=Analytique et exploration de données
|fait_partie_du_module=Outils text mining
|est_module_de=Analytique et exploration de données
|pas_afficher_sous-page=Non
|page_precedente=Les données R
|page_suivante=Tutoriel tm text mining package
|pages_prérequises=Text mining, Les données R, Traitement de données alphanumériques avec R, Tutoriel tm text mining package
|voir_aussi=Web scraping avec R, Tutoriel koRpus
|cat tutoriels=R
|page_prérequis=Les données R, Text mining
}}
{{Ebauche}}
{{Ebauche}}
Voir aussi:
 
* [[R]]
'''A faire''' (ceci est vraiment un brouillon, la lecture de ce texte peut détruire votre ordinateur)
* tout réviser et vérifier !!
* splitter la page en 3-4 sujets
* fournir du code compact pour des tâches typiques
- [[Utilisateur:Daniel K. Schneider|Daniel K. Schneider]] ([[Discussion utilisateur:Daniel K. Schneider|discussion]]) 8/24 oct. 2014


== Introduction ==
== Introduction ==
'''''tm''''' est le paquet "text mining" les plus populaire de [[R]] et il [[R#Installation_de_paquets|faut l'installer]] si nécessaire.


Pour l'utiliser:
A faire ....
<code>library(tm)</code>
 
=== Sources de données utilisées dans les exemples ===
 
R et ses extensions permettent de digérer des formats de documents divers. Dans nos examples, nous allons nous concentrer sur:
* Des fichiers en texte bruts, notamment disponibles dans le project [http://www.gutenberg.org/ Gutenberg]
** Zen and the Art of the Internet, by Brendan P. Kehoe: http://www.gutenberg.org/cache/epub/34/pg34.txt
** Une courte histoire de l'eBook, by Marie Lebert: http://www.gutenberg.org/files/29802/29802-0.txt
* Des pages EduTechWiki, notamment les versions "XML" que l'on peut obtenir via [http://edutechwiki.unige.ch/fmediawiki/api.php l'API]
 
== Survol de paquets R ==
 
Il existe plusieurs paquets utiles pour effectuer des analyses exploratoires de textes. Ces paquets s'installent en règle générale assez facilement. Si vous utilisez R-Studio il suffit de cliquer l'onglet "Install" et taper le nom. Ceci dit, il faut parfois installer d'autres langages comme Java. Sur PC les paquets sont déjà compilés, sous Linux ils sont compilés (ce qui implique qu'il faut avoir installé C, Fortran, Perl, Java, etc.)
 
Il n'est pas nécessaire de lire cela lors de votre première visite (....)


Si nécessaire, installez ce paquet avec R-Studio ou tapez:
=== Utilitaires ===
<code> install.packages("tm")</code>
 
Ces paquets (et d'autres) sont normalement installés par certains paquets text mining.


'''Autre packages utiles'''
* stringi (permet de manipuler des chaines de caractères)
* stringi (permet de manipuler des chaines de caractères)
* proxy (analyses de proximités)
* XML (manipulation de fichiers XML/HTML)
* tau (régler l'encodage, tokeniser, compter)
* ...


== Importation de documents ==
=== Text mining paquets à vocation multiple ===


Le paquet '''''tm''''' est conçu pour marcher avec une variété de formats: textes simples, articles/papiers en PDF ou Word, documents Web (HTML, XML, SGML), etc.
Ces paquets sont conçus différemment. Certains offrent des analyses de A-Z alors que d'autres offrent surtout un soutien pour toutes les étapes de préparation


=== Les corpus ===
; tm
: Tutoriel EduTechwiki: [[Tutoriel tm text mining package]]
: '''tm''' est un "framework" pour l'analyse de texte. Le logiciel aide pour tout ce qui est préparation, constitution de corpus, analyses simples (fréquences, etc.). On peut construire des tableaux de proximité que l'on peut ensuite analyser avec des outils statistiques.
: Voir [[Tutoriel tm text mining package]]
: Cran.r: [http://cran.r-project.org/web/packages/tm/ tm: Text Mining Package]
: [http://tm.r-forge.r-project.org/ Home page]
: Rdocumentation: [http://www.rdocumentation.org/packages/tm tm]
: Il existe des extensions (voir ci-dessous pour certains)


Le <code>Corpus</code> est la structure R qui représente une collection de documents que l'on veut analyser. Cette structure doit être construite en important des données et/ou en tapant des données.
; tm.plugin.mail
: Permet d'analyser des fichiers emails


Il existe 2 versions:
; tm.plugin.webmining
* VCorpus (volatile, lorsqu'on arrête R, il faut la refaire ...
: Inclut des fonctions "web scraping"
* PCorpus (endroit unique où le corpus est stocké)


Pour construire un corpus, il faut donner deux arguments
; tm.plugin.alceste
* Identifier un type de ''''source''''' de données: soit <code>DataframeSource</code>, <code>DirSource</code>, <code>URISource</code>, <code>vectorSource</code> ou <code>XMLSource</code>
: Permet d'importer des fichiers au format "Alceste" (voir par exemple [[IRaMuTeQ]])
* Definir le '''''reader''''', c-a-d. on  '''''manière dont le texte''''' est lu avec <code>readerControl</code>, notamment <code>readDOC</code>, <code>readPDF</code>, <code>readPlain</code>, <code>readXML</code>, <code>readTabular</code>.


Demander à R des informations concernant le type de sources et de readers:
; qdap
<source lang="javascript">
: Grand éventail d'outils pour analyser des transcriptions (entretiens, dialogues, etc.) , mais on peut l'utiliser pour d'autres types de textes
getReaders() # affiche toute la liste de readers
: cran.r: [http://cran.r-project.org/web/packages/qdap/ qdap: Bridging the Gap Between Qualitative Data and Quantitative Analysis]
getSources() # affiche la liste des types de sources
: [http://trinker.github.io/qdap/ home page] (sur GitHub)
</source>
: Rdocumentation: [http://www.rdocumentation.org/packages/qdap qdap]
: Description: qdap automates many of the tasks associated with quantitative discourse analysis of transcripts containing discourse including frequency counts of sentence types, words, sentences, turns of talk, syllables and other assorted analysis tasks. The package provides parsing tools for preparing transcript data. Many functions enable the user to aggregate data by any number of grouping variables, providing analysis and seamless integration with other R packages that undertake higher level analysis and visualization of text. [...]
: Cette extension installe une trentaine (!) d'autres.


Chaque source possède un lecteur (reader) par défaut. Par exemple pour <code>DirSource</code>, c'est <code>readPlain</code>.
; RcmdrPlugin.temis
: cran.r: [http://cran.r-project.org/web/packages/RcmdrPlugin.temis/ RcmdrPlugin.temis: Graphical Integrated Text Mining Solution]
: [http://www.rdocumentation.org/packages/RcmdrPlugin.temis RcmdrPlugin.temis]
: [http://r-forge.r-project.org/projects/r-temis/ Homepage] (sur R-Forge)
: Description: An R Commander plug-in providing an integrated solution to perform a series of text mining tasks such as importing and cleaning a corpus, and analyses like terms and documents counts, vocabulary tables, terms co-occurrences and documents similarity measures, time series analysis, correspondence analysis and hierarchical clustering. Corpora can be imported from spreadsheet-like files, directories of raw text files, Twitter queries, as well as from Dow Jones Factiva, LexisNexis, Europresse and Alceste files.


=== Exemple lecture de fichiers textes du tutoriel officiel en format UTF-8 ===
; koRpus
: Tutoriel EduTechwiki: [[Tutoriel koRpus]]
: Comprend plusieurs outils, notamment des opérations de bases, des indices populaires de "readabilité" et de diversité, une interface avec TreeTagger
: cran.r: [http://cran.r-project.org/web/packages/koRpus/ koRpus: An R Package for Text Analysis]
: [http://reaktanz.de/?c=hacking&s=koRpus Homepage]
: [http://www.rdocumentation.org/packages/koRpus koRpus]
: Description: A set of tools to analyze texts. Includes, amongst others, functions for automatic language detection, hyphenation, several indices of lexical diversity (e.g., type token ratio, HD-D/vocd-D, MTLD) and readability (e.g., Flesch, SMOG, LIX, Dale-Chall). Basic import functions for language corpora are also provided, to enable frequency analyses (supports Celex and Leipzig Corpora Collection file formats) and measures  like tf-idf.


Ces fichiers se trouvent déjà dans l'installation de R, d'où l'utilisation de <code>system.file</code>
; textometrieR
<source lang="javascript">
: Ne semble pas bien marcher dans R 3.1.1 (dernière mise à jour 2009, manque des choses ?)
# Tester si un répertoire existe et retourner son nom complet
: Description: Statistical exploration of textual corpora using several methods from french 'lexiometrie' and french 'Data Analysis' schools. It includes methods for exploring irregularity of distribution of lexicon (or other features) accross parts of texts; multidimensionnal exploration ('Analyse des correspondances'), etc.
# Tester et stocker le nom d´un sous-répertoire tm/texts/txt dans votre bibliothèque système
txt <- system.file("texts", "txt", package = "tm")
# Charger le texte de chaque fichier
ovid <- VCorpus(DirSource(txt, encoding = "UTF-8"), readerControl = list(language = "lat"))
</source>


'''Inspection et utilisation de corpus'''
; textometrie
: Other version of the above ?
: Description: Statistical exploration of textual corpora using several methods from French 'Textometrie' (new name of 'Lexicometrie') and French 'Data Analysis' schools. It includes methods for exploring irregularity of distribution of lexicon features across text sets or parts of texts (Specificity analysis); multi-dimensional exploration (Factorial analysis), etc. Those methods are used in the TXM software.


Pour vérifier les contenus on peut afficher le tout ou encore juste quelques éléments, par exemple:
=== Analyses spécifiques ===
<source lang="javascript">
# print a short overview
print(ovid)


# show all
; mallet
inspect(ovid)
: apprentissage machine, utile pour topic modeling
ovid
: il s'agit d'une interface pour le programme Java "Mallet"
: Rdocumentation: [http://www.rdocumentation.org/packages/mallet mallet]


# display the second document
;lda
ovid[[2]]
: fonctionalités similaires à mallet
</source>
: Rdocumentation: [http://www.rdocumentation.org/packages/lda lda]
: Description: This package implements latent Dirichlet allocation (LDA) and related models.  This includes (but is not limited to)sLDA, corrLDA, and the mixed-membership stochastic blockmodel [...]


=== Exemple lecture de fichiers locaux ===
; sentiment
: Tutoriel EduTechwiki: [[Analyse de sentiments avec R]]
: analyse de sentiments
: Rdocumentation: [http://www.rdocumentation.org/packages/sentiment sentiment]
: Pas disponibles dans R 3.1.1 ?


Pour lire un ensemble de fichier locaux,on conseille de les mettre dans un sous-répertoire d'un répertoire pour le text mining.
; RTextTools
: classification automatique de textes, 9 méthodes à choix
: RDocumentation: [http://www.rdocumentation.org/packages/RTextTools RTextTools]
: Description: RTextTools is a machine learning package for automatic text classification that makes it simple for novice users  get started with machine learning, while allowing experienced users to easily experiment with different settings and  algorithm combinations. The package includes nine algorithms for ensemble classification (svm, slda, boosting, bagging, random forests, glmnet, decision trees, neural networks,  maximum entropy), comprehensive analytics, and thorough  documentation.


(1) Définissez le working directory
; lsa (latent semantic analysis)
<source lang="javascript">
: Permet de mener des analyses de type [[:en:Latent semantic analysis and indexing|LSA]]
# lister
: RDocumentation: [http://www.rdocumentation.org/packages/lsa lsa]
getwd()
: Description: The basic idea of latent semantic analysis (LSA) is, that text do have a higher order (=latent semantic) structure which, however, is obscured by word usage (e.g. through the use of synonyms or polysemy). By using conceptual indices that are derived statistically via a truncated singular value decomposition (a two-mode factor analysis) over a given document-term matrix, this variability problem can be overcome.
[1] "C:/Users/dschneid/Documents"
# changer le répertoire de travail
setwd "C:/dks/R"
</source>


On peut utiliser la fonction ''file.path'' pour indiquer ou trouver les fichiers. Si sous Windows, les fichiers se trouvent dans <code>D:\data\exemples\txt</code>, utilisez du code comme <code>chemin <- file.path("d:", "data", "exemples", "txt") </code>. Pour indiquer un sous-répertoire du répertoire courant, utilise qc. comme <code>file.path (".", "textes")</code>. Enfin, avec une syntaxe "Unix" cela marchera aussi: <code>D:/data/exemples/txt</code>
; RWeka
: Interface R pour le logiciel Weka (écrit en Java). Weka semble être l'outil le plus populaire en text mining combiné au machine learning (par exemple pour classifier des segments)
: RDocumentation: [http://www.rdocumentation.org/packages/RWeka Rweka]
: Description: An R interface to Weka (Version 3.7.11). Weka is a collection of machine learning algorithms for data mining tasks written in Java, containing tools for data pre-processing, classification, regression, clustering, association rules, and visualization


Voici un exemple plus concret pour Unix ou j'ai mis un certain nombre de documents *.text/txt simples dans un répertoire ~/schneide/methodo/R/ex"·
=== Paquets statistiques ===


On vérifie le working directory
; kpca
> getwd()
: Kernel Principal Components Analysis is a nonlinear form of principal component analysis.
[1] "/home/schneide"


On définit le chemin:
; maxent
dirr <- file.path ("schneide", "methodo", "R", "ex")
: classification automatique de textes avec "maximum entropy" ak ''multinomial logistic regression''
: Description: maxent is an R package with tools for low-memory multinomial logistic regression, also known as maximum entropy. The focus of this maximum entropy classifier is to minimize memory consumption [..], particularly sparse document-term matrices represented by the tm package. [...]


On regarde ce qui a dedans:
; proxy
> dir (dirr)
: analyses de proximités
[1] "how-to-get-a-phd.text"                             
: Description: Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
[2] "In-the-beginning-was-the-command-line-Stephenson.txt"
[3] "logic-and-qual-res.text" 
...


On crée un corpus
; ca
library(tm)
: Description: A package for computation and visualization of simple, multiple and joint correspondence analysis.
corpus0 <- Corpus(DirSource(dirr))


=== Lire du PDF et du WORD ===
; corrplot
: Utile pour afficher par exemple des matrices de type TfIdf (en ligne des mots, en colonne des textes et en cellule un graphique qui représente le "poids" du mot)
: Description: The corrplot package is a graphical display of a correlation matrix, confidence interval or any sort of Matrix (is.corr=FALSE). It also contains some algorithms to do matrix reordering.


Il existe des filtres (readers) pour ces 2 types de documents (pas testés). A tester, il est possible qu'il vaut mieux enregistrer Word comme PDF et ensuite utiliser le filtre PDF.
....


chemin <- file.path ("...")
== Survol d'analyses ==
corp <- Corpus (DirSource (chemin), readerControl=list (reader=readDOC)) 
corp <- Corpus (DirSource (chemin), readerControl=list (reader=readPDF))


=== Aspirer une page web ===
(à faire)


=== Aspirer une page MediaWiki ===
== Préparation de documents ==


Les MediaWiki ont une API qui autorise l'extraction de contenus de pages, un bon exemple est ce wiki:
=== Extraction d'une base de données ===


Afficher l'API:
Il est possible d'écrire le résultat de requêtes SQL dans un fichier, enfin il faut s'adapter aux mesure de sécurité des serveurs bases de données.
http://edutechwiki.unige.ch/fmediawiki/api.php


Exemple: Contenu d'une page sous format XML (qu'il va aussi falloir nettoyer, mais moins)
Par exemple dans MySQL (Ubuntu 16.x / Mysql 14.x (5.7.x), l'expresssion suivante marche si le client a des droits d'administrateur
http://edutechwiki.unige.ch/fmediawiki/api.php?action=parse&page=Civilization&format=xml


== Transformations ==
USE phpwiki14;
SELECT content FROM `version` WHERE id = 5265 into outfile '/var/lib/mysql-file/t2.text' lines terminated by '\n$_version_$\n';


Il existe un certain nombre de fonctions qui permet de "nettoyer" le texte
Ensuite, vous pouvez par exemple couper ce fichier en plusieurs fichiers (je ne comprends pas pourquoi split veut un nombre précis de répétition)
csplit -f test -n 3 t2.text '/\$_version_\$/' {162}


Partant avec un corpus, appelé <code>corpus0</code>, on peut effectuer plusieurs opérations, par exemple:


; stripWhitespace()
=== Extraction via une API ===
: Enlève les blancs en trop
: <code>corpus1 <- tm_map(corpus0, stripWhitespace)</code>


; tolower();
C.f. les examples Edutechwiki dans le tutoriel [[Tutoriel tm text mining package|tm]]
: Met tous les mots en minuscules
: <code>corpus2 <- tm_map(corpus1, tolower)</code>


; removeWords(....),
: Enlever des mots
: Par exemple des stopwords en Anglais: <code>corpus3 <- tm_map(corpus2, removeWords, stopwords("english"))</code>
: ou en français: <code>corpus5 <- tm_map(corpus3, removeWords, stopwords("french"))</code>
: Par exemple une liste de mots: code>xxx = tm_map(corpus2, removeWords, c("Daniel", "Kaspar", "TECFA"))</code>


; removePunctuation()
=== Nettoyage ===
: Enlever les ponctuations


; Remplacer des caractères (merci à [http://onepager.togaware.com/TextMiningO.pdf Graham Williams])
Pour préparer des "sacs de mots" nettoyés et pour fabriquer des tableaux de fréquences ou de proximité, on conseille d'utiliser [[Tutoriel tm text mining package|tm]] (tutoriel)
<source lang="javascript">
for (j in seq (corpus0) {
  docs[[j]] <- gsub ("/", ," ", docs[[j]])
  docs[[j]] <- gsub ("@", ," ", docs[[j]])
......
}
</source>


Evidémment on peut aussi utiliser des expression régulières, par exemple une qui tue les balises XML/HTML
== Analyses de type ALCESTE ==
gsub("<.*/>","",string)


; removeNumber()
[http://www.iramuteq.org/ Iramutec] est un logiciel (Interface de R) qui permet de faire un certain nombre d'analyses statistiques relativement facilement. On peut considérer que ce logiciel est une implémentation open source des fonctionnalités populaires du logiciel commercial [http://www.image-zafar.com/ Alceste] et de la méthode ALCESTE ("Analyse des Lexèmes Cooccurrents pour un Ensemble de Segmentations du Texte en Énoncés") sous-jacent développée par Max Reinert.
: Enlever des nombres


; stemDocument()
* On conseille d'utiliser [[IRaMuTeQ]]
: Faire du stemming
<source lang="javascript">
  library(SnowballC)
  corpus9 = <code>stemDocument(corpusx, language = meta(corpusx, "language"))</code>
</source>


== Méthodes d'analyse ==
Selon le [http://www.image-zafar.com/fr/logiciel-alceste site officiel],  {{citation|Alceste, à partir d’un corpus, effectue une première analyse détaillée de son vocabulaire, et constitue le dictionnaire des mots ainsi que de leur racine, avec leur fréquence. Ensuite, par fractionnements successifs, il découpe le texte en segments homogènes contenant un nombre suffisant de mots, et procède alors à une classification de ces segments en repérant les oppositions les plus fortes. Cette méthode permet d’extraire des classes de sens, constituées par les mots et les phrases les plus significatifs, les classes obtenues représentent les idées et les thèmes dominants du corpus. L’ensemble des résultats triés selon leur pertinence, accompagnés de nombreuses représentations graphiques et de différents rapports d’analyse, permet à l’utilisateur une interprétation aisée et efficace.}}


=== Préparation du texte à analyser ===


.....
Ce logiciel ne lit que des fichiers text nettoyés. Un texte ne peut pas contenir des "*". Il faut les préparer avec R par exemple.


Un corpus est '''un seul grand fichier''' et qui contient un balisage "Alceste" (introduit ci-dessous). On peut le créer de plusieurs façons, par exemple avec R ou manuellement.


== Exemple EduTechWiki ==
Selon le [http://www.iramuteq.org/documentation/html/2-2-1-generalites manuel],
* Les fichiers d'entrée doivent être au format texte brut (.txt), et de préférence contenir les caractères de ponctuations.
* Dans ce formatage, l'unité de base est appelée « Texte ». Un texte peut représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs textes (mais au minimum un).


(en construction !!)
Dans le fichier corpus, les "textes" sont introduits par quatre étoiles (****) suivies d'une série de variables étoilées (variables illustratives) séparées par un espace.


Cet exemple est directement inspiré par le billet [http://www.rexamine.com/2014/06/text-mining-in-r-automatic-categorization-of-wikipedia-articles/ Text mining in R – Automaticcategorization of Wikipedia articles] de Norbert Ryciak.
**** *prom_tetris *jeu_play-the-news *var_x-y
contenu du texte ....


===Prérequis ===
**** *prom_tetris *jeu_TechnoCity
contenu du texte ....


Il faut avoir les librairies stringi, proxi et tm. Donc si nécessaire, il faut les installer. Par exemple, en ligne de commande:
A l'intérieur d'une section "texte", on peut aussi identifier des thématiques
  install.packages("proxy")
**** *prom_tetris *jeu_play-the-news *var_x-y
-*thematique1
contenu du texte .....
  -*thematique2
  contenu du texte .....


=== Importer les documents ===
Concatener tous les fichiers d'un répertoire sous Linux (devrait aussi marcher sur un Mac)
  ls -aQ | xargs cat > corpus.txt


On peut directement importer des pages html (donc des pages wiki):
== LSA  ==


<source lang="javascript">
Packages:
library(tm)
* irlba
library(stringi)
* clustrd
library(proxy)
# le nom du wiki
wiki <- "http://edutechwiki.unige.ch/fr/"
# une liste de noms de pages
titles <- c("STIC:STIC_I_-_exercice_1_(Utopia)", "STIC:STIC I - exercice 1 (Nestor-Pixel)",
            "STIC:STIC_I_-_exercice_2_(Utopia)",
            "STIC:STIC III (2012)/Module 1",  "STIC:STIC III (2012)/Module 2")


# un vecteur qui contient 5 strings vides ("")
Adapter (si nécessaire) la DTM produit avec le paquet tm
articles <- character(length(titles))
dtm.to.sm <->
  sparseMatrix(i=dtm$i, j=dtm$j, x=dtm$v,
              dims=c(dtm$nrow, dtm$ncol))
}


# lecture des contenus des pages wiki. Chaque article se trouvera dans un des string ci-dessous.
== Topic Modeling ==
for (i in 1:length(titles)) {
    articles[i] <- stri_flatten(readLines(stri_paste(wiki, titles[i])), col = "")
}


# Création d un corpus avec les articles
(à faire)
docs <- Corpus(VectorSource(articles))
</source>


== Liens ==
== Liens ==
Ligne 227 : Ligne 250 :
* Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
* Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
** Assez utile pour débuter
** Assez utile pour débuter
* [http://bridge.library.wisc.edu/hw1a-Rcoding-Jockers.html Topic Models Homework #1A: R Coding] (part of a workshop documentation]. This shows how to use the lda package.
* [http://fr.wikipedia.org/wiki/Fouille_de_textes Fouille de textes] (seulement une ébauche en oct. 2014, voir [http://en.wikipedia.org/wiki/Text_mining Text Mining] (Wikipedia)
* [https://sg.linkedin.com/in/kailash-awati-3517a711 Kailash Awati], [https://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining-using-r/ A gentle introduction to text mining using R] (blog post, 2015). Voir aussi: [https://eight2late.wordpress.com/2015/12/02/a-gentle-introduction-to-network-graphs-using-r-and-gephi/ article on visualizing relationships between documents] et [https://eight2late.wordpress.com/2015/09/29/a-gentle-introduction-to-topic-modeling-using-r/ introductory piece on topic modeling]
=== Sites ===
* [http://www.rdocumentation.org/domains/NaturalLanguageProcessing NaturalLanguageProcessing]. Aide en ligne pour tous les paquets de traitement de langue.
* [http://www.rdatamining.com/ RDM] R Data Mining


=== Exemples et/ou textes informels ===
=== Exemples et/ou textes informels ===
Ligne 239 : Ligne 273 :
* [https://sites.google.com/site/miningtwitter/basics/text-mining Mining twitter with R]
* [https://sites.google.com/site/miningtwitter/basics/text-mining Mining twitter with R]


* [http://www.rdatamining.com/examples/text-mining text mining of Twitter data with R]
* TD's de J. Velcin, R. Rakotomalala: Il s'agit d'exercices assez techniques.
** [http://mediamining.univ-lyon2.fr/velcin/public/TM/td1-sujet.pdf TD Fouille de textes 1] (Intro/Prise en main de R)
** [http://mediamining.univ-lyon2.fr/velcin/public/TM/td2-sujet.pdf TD Fouille de textes 2] (comparer des textes)
** [http://mediamining.univ-lyon2.fr/velcin/public/TM/td3-sujet.pdf TD Fouille de textes 3] (la librairie TM)
* [http://www.unt.edu/rss/class/Jon/R_SC/ Basic example of Text Mining] (Research and Statistical Support, UNT)
=== Statistiques ===
* [http://www.statmethods.net/advstats/cluster.html Cluster Analysis] c/o Statmethods
=== Q/A Stackoverflow ===
; Lire du XML
* [http://stackoverflow.com/questions/23584514/error-xml-content-does-not-seem-to-be-xml-r-3-1-0 Error: XML Content does not seem to be XML | R 3.1.0]
* [http://stackoverflow.com/questions/21790059/reading-xml-data-in-r Reading XML using R]
; HTML scraping
* [http://stackoverflow.com/questions/24469803/html-scraping-r-scrapr HTML scraping - R scrapR]


[[Catégorie:Analytique et exploration de données]]
[[Catégorie:Analytique et exploration de données]]
[[Catégorie:R]]

Dernière version du 22 mars 2020 à 22:28

Analytique et exploration de données
Module: Outils text mining
Page d'entrée du module
Analytique et exploration de données
◀▬▬▶
2020/03/22
Prérequis
Voir aussi
Catégorie: R

Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.

A faire (ceci est vraiment un brouillon, la lecture de ce texte peut détruire votre ordinateur)

  • tout réviser et vérifier !!
  • splitter la page en 3-4 sujets
  • fournir du code compact pour des tâches typiques

- Daniel K. Schneider (discussion) 8/24 oct. 2014

Introduction

A faire ....

Sources de données utilisées dans les exemples

R et ses extensions permettent de digérer des formats de documents divers. Dans nos examples, nous allons nous concentrer sur:

Survol de paquets R

Il existe plusieurs paquets utiles pour effectuer des analyses exploratoires de textes. Ces paquets s'installent en règle générale assez facilement. Si vous utilisez R-Studio il suffit de cliquer l'onglet "Install" et taper le nom. Ceci dit, il faut parfois installer d'autres langages comme Java. Sur PC les paquets sont déjà compilés, sous Linux ils sont compilés (ce qui implique qu'il faut avoir installé C, Fortran, Perl, Java, etc.)

Il n'est pas nécessaire de lire cela lors de votre première visite (....)

Utilitaires

Ces paquets (et d'autres) sont normalement installés par certains paquets text mining.

  • stringi (permet de manipuler des chaines de caractères)
  • XML (manipulation de fichiers XML/HTML)
  • tau (régler l'encodage, tokeniser, compter)
  • ...

Text mining paquets à vocation multiple

Ces paquets sont conçus différemment. Certains offrent des analyses de A-Z alors que d'autres offrent surtout un soutien pour toutes les étapes de préparation

tm
Tutoriel EduTechwiki: Tutoriel tm text mining package
tm est un "framework" pour l'analyse de texte. Le logiciel aide pour tout ce qui est préparation, constitution de corpus, analyses simples (fréquences, etc.). On peut construire des tableaux de proximité que l'on peut ensuite analyser avec des outils statistiques.
Voir Tutoriel tm text mining package
Cran.r: tm: Text Mining Package
Home page
Rdocumentation: tm
Il existe des extensions (voir ci-dessous pour certains)
tm.plugin.mail
Permet d'analyser des fichiers emails
tm.plugin.webmining
Inclut des fonctions "web scraping"
tm.plugin.alceste
Permet d'importer des fichiers au format "Alceste" (voir par exemple IRaMuTeQ)
qdap
Grand éventail d'outils pour analyser des transcriptions (entretiens, dialogues, etc.) , mais on peut l'utiliser pour d'autres types de textes
cran.r: qdap: Bridging the Gap Between Qualitative Data and Quantitative Analysis
home page (sur GitHub)
Rdocumentation: qdap
Description: qdap automates many of the tasks associated with quantitative discourse analysis of transcripts containing discourse including frequency counts of sentence types, words, sentences, turns of talk, syllables and other assorted analysis tasks. The package provides parsing tools for preparing transcript data. Many functions enable the user to aggregate data by any number of grouping variables, providing analysis and seamless integration with other R packages that undertake higher level analysis and visualization of text. [...]
Cette extension installe une trentaine (!) d'autres.
RcmdrPlugin.temis
cran.r: RcmdrPlugin.temis: Graphical Integrated Text Mining Solution
RcmdrPlugin.temis
Homepage (sur R-Forge)
Description: An R Commander plug-in providing an integrated solution to perform a series of text mining tasks such as importing and cleaning a corpus, and analyses like terms and documents counts, vocabulary tables, terms co-occurrences and documents similarity measures, time series analysis, correspondence analysis and hierarchical clustering. Corpora can be imported from spreadsheet-like files, directories of raw text files, Twitter queries, as well as from Dow Jones Factiva, LexisNexis, Europresse and Alceste files.
koRpus
Tutoriel EduTechwiki: Tutoriel koRpus
Comprend plusieurs outils, notamment des opérations de bases, des indices populaires de "readabilité" et de diversité, une interface avec TreeTagger
cran.r: koRpus: An R Package for Text Analysis
Homepage
koRpus
Description: A set of tools to analyze texts. Includes, amongst others, functions for automatic language detection, hyphenation, several indices of lexical diversity (e.g., type token ratio, HD-D/vocd-D, MTLD) and readability (e.g., Flesch, SMOG, LIX, Dale-Chall). Basic import functions for language corpora are also provided, to enable frequency analyses (supports Celex and Leipzig Corpora Collection file formats) and measures like tf-idf.
textometrieR
Ne semble pas bien marcher dans R 3.1.1 (dernière mise à jour 2009, manque des choses ?)
Description: Statistical exploration of textual corpora using several methods from french 'lexiometrie' and french 'Data Analysis' schools. It includes methods for exploring irregularity of distribution of lexicon (or other features) accross parts of texts; multidimensionnal exploration ('Analyse des correspondances'), etc.
textometrie
Other version of the above ?
Description: Statistical exploration of textual corpora using several methods from French 'Textometrie' (new name of 'Lexicometrie') and French 'Data Analysis' schools. It includes methods for exploring irregularity of distribution of lexicon features across text sets or parts of texts (Specificity analysis); multi-dimensional exploration (Factorial analysis), etc. Those methods are used in the TXM software.

Analyses spécifiques

mallet
apprentissage machine, utile pour topic modeling
il s'agit d'une interface pour le programme Java "Mallet"
Rdocumentation: mallet
lda
fonctionalités similaires à mallet
Rdocumentation: lda
Description: This package implements latent Dirichlet allocation (LDA) and related models. This includes (but is not limited to)sLDA, corrLDA, and the mixed-membership stochastic blockmodel [...]
sentiment
Tutoriel EduTechwiki: Analyse de sentiments avec R
analyse de sentiments
Rdocumentation: sentiment
Pas disponibles dans R 3.1.1 ?
RTextTools
classification automatique de textes, 9 méthodes à choix
RDocumentation: RTextTools
Description: RTextTools is a machine learning package for automatic text classification that makes it simple for novice users get started with machine learning, while allowing experienced users to easily experiment with different settings and algorithm combinations. The package includes nine algorithms for ensemble classification (svm, slda, boosting, bagging, random forests, glmnet, decision trees, neural networks, maximum entropy), comprehensive analytics, and thorough documentation.
lsa (latent semantic analysis)
Permet de mener des analyses de type LSA
RDocumentation: lsa
Description: The basic idea of latent semantic analysis (LSA) is, that text do have a higher order (=latent semantic) structure which, however, is obscured by word usage (e.g. through the use of synonyms or polysemy). By using conceptual indices that are derived statistically via a truncated singular value decomposition (a two-mode factor analysis) over a given document-term matrix, this variability problem can be overcome.
RWeka
Interface R pour le logiciel Weka (écrit en Java). Weka semble être l'outil le plus populaire en text mining combiné au machine learning (par exemple pour classifier des segments)
RDocumentation: Rweka
Description: An R interface to Weka (Version 3.7.11). Weka is a collection of machine learning algorithms for data mining tasks written in Java, containing tools for data pre-processing, classification, regression, clustering, association rules, and visualization

Paquets statistiques

kpca
Kernel Principal Components Analysis is a nonlinear form of principal component analysis.
maxent
classification automatique de textes avec "maximum entropy" ak multinomial logistic regression
Description: maxent is an R package with tools for low-memory multinomial logistic regression, also known as maximum entropy. The focus of this maximum entropy classifier is to minimize memory consumption [..], particularly sparse document-term matrices represented by the tm package. [...]
proxy
analyses de proximités
Description: Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
ca
Description: A package for computation and visualization of simple, multiple and joint correspondence analysis.
corrplot
Utile pour afficher par exemple des matrices de type TfIdf (en ligne des mots, en colonne des textes et en cellule un graphique qui représente le "poids" du mot)
Description: The corrplot package is a graphical display of a correlation matrix, confidence interval or any sort of Matrix (is.corr=FALSE). It also contains some algorithms to do matrix reordering.

....

Survol d'analyses

(à faire)

Préparation de documents

Extraction d'une base de données

Il est possible d'écrire le résultat de requêtes SQL dans un fichier, enfin il faut s'adapter aux mesure de sécurité des serveurs bases de données.

Par exemple dans MySQL (Ubuntu 16.x / Mysql 14.x (5.7.x), l'expresssion suivante marche si le client a des droits d'administrateur

USE phpwiki14;
SELECT content FROM `version` WHERE id = 5265 into outfile '/var/lib/mysql-file/t2.text' lines terminated by '\n$_version_$\n';

Ensuite, vous pouvez par exemple couper ce fichier en plusieurs fichiers (je ne comprends pas pourquoi split veut un nombre précis de répétition)

csplit -f test -n 3 t2.text '/\$_version_\$/' {162}


Extraction via une API

C.f. les examples Edutechwiki dans le tutoriel tm


Nettoyage

Pour préparer des "sacs de mots" nettoyés et pour fabriquer des tableaux de fréquences ou de proximité, on conseille d'utiliser tm (tutoriel)

Analyses de type ALCESTE

Iramutec est un logiciel (Interface de R) qui permet de faire un certain nombre d'analyses statistiques relativement facilement. On peut considérer que ce logiciel est une implémentation open source des fonctionnalités populaires du logiciel commercial Alceste et de la méthode ALCESTE ("Analyse des Lexèmes Cooccurrents pour un Ensemble de Segmentations du Texte en Énoncés") sous-jacent développée par Max Reinert.

Selon le site officiel, «Alceste, à partir d’un corpus, effectue une première analyse détaillée de son vocabulaire, et constitue le dictionnaire des mots ainsi que de leur racine, avec leur fréquence. Ensuite, par fractionnements successifs, il découpe le texte en segments homogènes contenant un nombre suffisant de mots, et procède alors à une classification de ces segments en repérant les oppositions les plus fortes. Cette méthode permet d’extraire des classes de sens, constituées par les mots et les phrases les plus significatifs, les classes obtenues représentent les idées et les thèmes dominants du corpus. L’ensemble des résultats triés selon leur pertinence, accompagnés de nombreuses représentations graphiques et de différents rapports d’analyse, permet à l’utilisateur une interprétation aisée et efficace.»

Préparation du texte à analyser

Ce logiciel ne lit que des fichiers text nettoyés. Un texte ne peut pas contenir des "*". Il faut les préparer avec R par exemple.

Un corpus est un seul grand fichier et qui contient un balisage "Alceste" (introduit ci-dessous). On peut le créer de plusieurs façons, par exemple avec R ou manuellement.

Selon le manuel,

  • Les fichiers d'entrée doivent être au format texte brut (.txt), et de préférence contenir les caractères de ponctuations.
  • Dans ce formatage, l'unité de base est appelée « Texte ». Un texte peut représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs textes (mais au minimum un).

Dans le fichier corpus, les "textes" sont introduits par quatre étoiles (****) suivies d'une série de variables étoilées (variables illustratives) séparées par un espace.

**** *prom_tetris *jeu_play-the-news *var_x-y
contenu du texte ....
**** *prom_tetris *jeu_TechnoCity
contenu du texte ....

A l'intérieur d'une section "texte", on peut aussi identifier des thématiques

**** *prom_tetris *jeu_play-the-news *var_x-y
-*thematique1
contenu du texte .....
 -*thematique2
contenu du texte .....

Concatener tous les fichiers d'un répertoire sous Linux (devrait aussi marcher sur un Mac)

 ls -aQ | xargs cat > corpus.txt

LSA

Packages:

  • irlba
  • clustrd

Adapter (si nécessaire) la DTM produit avec le paquet tm

dtm.to.sm <->
 sparseMatrix(i=dtm$i, j=dtm$j, x=dtm$v,
              dims=c(dtm$nrow, dtm$ncol))
}

Topic Modeling

(à faire)

Liens

Articles d'introduction

  • Ingo Feiner (2014). Introduction to the tm Package Text Mining in R, http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
    • Official "vignette" (introductory text included with the package). Quote: “This vignette gives a short introduction to text mining in R utilizing the text mining framework provided by the tm package. We present methods for data import, corpus handling, preprocessing, metadata management, and creation of term-document matrices.”
  • Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, Journal of Statistical software, Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
    • Article complet par les auteurs du package et qui introduit le paquet tm (version 2008). Il contient aussi des exemples.

Sites

Exemples et/ou textes informels

  • Text mining with R (slides) by Aleksei Beloshytski
    • Montre (superficiellement) notamment comment analyser un blog, c'est à dire extraire les contenus, puis extraire les thèmes les plus populaires, clustering, etc.

Statistiques

Q/A Stackoverflow

Lire du XML
HTML scraping