« Text mining avec R » : différence entre les versions
m (→Liens) |
|||
Ligne 9 : | Ligne 9 : | ||
tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou Word, des documents Web (HTML, XML, SGML), etc. | tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou Word, des documents Web (HTML, XML, SGML), etc. | ||
=== Les corpus === | |||
Le <code>Corpus</code> est la structure R qui représente une collection de documents que l'on veut analyser. Cette structure doit être construite en important des données et/ou en tapant des données. | |||
Il existe 2 versions: | |||
* VCorpus (volatile, lorsqu'on arrête R, il faut la refaire ... | |||
* PCorpus (endroit unique où le corpus est stocké) | |||
Pour construire un corpus, il faut donner deux arguments | |||
* Identifier un type de ''''source''''' de données: soit <code>DataframeSource</code>, <code>DirSource</code>, <code>URISource</code>, <code>vectorSource</code> ou <code>XMLSource</code> | |||
getSources() # donne la liste | |||
* Definir le '''''reader''''', c-a-d. la ''''manière dont le texte''' est lu avec <code>readerControl</code>, notamment <code>readDOC</code>, <code>readPDF</code>, <code>readPlain</code>, <code>readXML</code>, <code>readTabular</code>. | |||
getReaders() # donne toute la liste | |||
Chaque source possède un lecteur par défaut. Par exemple pour <code>DirSource</code>, c'est <code>readPlain</code>. | |||
Lecture de fichiers textes en format UTF-8 | |||
# Tester si un répertoire existe et retourner son nom complet | |||
# Tester et stocker le nom d'un sous-répertoire tm/texts/txt dans votre bibliothèque système | |||
txt <- system.file("texts", "txt", package = "tm") | |||
# Charger | |||
(ovid <- VCorpus(DirSource(txt, encoding = "UTF-8"), readerControl = list(language = "lat"))) | |||
== Transformations == | == Transformations == |
Version du 25 septembre 2014 à 17:06
Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.
Voir aussi:
Importation de documents
tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou Word, des documents Web (HTML, XML, SGML), etc.
Les corpus
Le Corpus
est la structure R qui représente une collection de documents que l'on veut analyser. Cette structure doit être construite en important des données et/ou en tapant des données.
Il existe 2 versions:
- VCorpus (volatile, lorsqu'on arrête R, il faut la refaire ...
- PCorpus (endroit unique où le corpus est stocké)
Pour construire un corpus, il faut donner deux arguments
- Identifier un type de 'source de données: soit
DataframeSource
,DirSource
,URISource
,vectorSource
ouXMLSource
getSources() # donne la liste
- Definir le reader, c-a-d. la 'manière dont le texte est lu avec
readerControl
, notammentreadDOC
,readPDF
,readPlain
,readXML
,readTabular
.
getReaders() # donne toute la liste
Chaque source possède un lecteur par défaut. Par exemple pour DirSource
, c'est readPlain
.
Lecture de fichiers textes en format UTF-8
- Tester si un répertoire existe et retourner son nom complet
- Tester et stocker le nom d'un sous-répertoire tm/texts/txt dans votre bibliothèque système
txt <- system.file("texts", "txt", package = "tm")
- Charger
(ovid <- VCorpus(DirSource(txt, encoding = "UTF-8"), readerControl = list(language = "lat")))
Transformations
stemDocument()
stripWhitespace()
tmTolower()
Méthodes d'analyse
.....
Exemple EduTechWiki
Cet exemple est directement inspiré par le billet Text mining in R – Automaticcategorization of Wikipedia articles de Norbert Ryciak.
Prérequis
Il faut avoir les librairies stringi, proxi et tm. Donc si nécessaire, il faut les installer. Par exemple, en ligne de commande:
install.packages("proxy")
Importer les documents
On peut directement importer des pages html (donc des pages wiki):
library(tm)
library(stringi)
library(proxy)
# le nom du wiki
wiki <- "http://edutechwiki.unige.ch/fr/"
# une liste de noms de pages
titles <- c("STIC:STIC_I_-_exercice_1_(Utopia)", "STIC:STIC I - exercice 1 (Nestor-Pixel)",
"STIC:STIC_I_-_exercice_2_(Utopia)",
"STIC:STIC III (2012)/Module 1", "STIC:STIC III (2012)/Module 2")
# un vecteur qui contient 5 strings vides ("")
articles <- character(length(titles))
# lecture des contenus des pages wiki. Chaque article se trouvera dans un des string ci-dessous.
for (i in 1:length(titles)) {
articles[i] <- stri_flatten(readLines(stri_paste(wiki, titles[i])), col = "")
}
# Création d un corpus avec les articles
docs <- Corpus(VectorSource(articles))
Liens
- Ingo Feiner (2014). Introduction to the tm Package Text Mining in R, http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
- Official "vignette" (introductory text included with the package). Quote: “This vignette gives a short introduction to text mining in
R utilizing the text mining framework provided by the tm package. We present methods for data import, corpus handling, preprocessing, metadata management, and creation of term-document matrices.”
- Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, Journal of Statistical software, Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
- Article complet par les auteurs du package et qui introduit le paquet tm (version 2008). Il contient aussi des exemples.
- Stefan Theussl, Ingo Feinerer & Kurt Hornik, Distributed Text Mining with tm, http://www.rinfinance.com/agenda/2010/Theussl+Feinerer+Hornik.pdf
- Aussi par les auteurs, contient des exemples différents.
- Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
- Assez utile pour débuter
- Text mining with R (slides) by Aleksei Beloshytski
- Montre (superficiellement) notamment comment analyser un blog, c'est à dire extraire les contenus, puis extraire les thèmes les plus populaires, clustering, etc.
- Text mining in R – Automatic categorization of Wikipedia articles par Norbert Ryciak, Juin 2014, article en ligne.
- Bref billet qui montre l'essentiel de ce qu'il faut savoir pour commencer à analyser EduTechwiki