« Text mining avec R » : différence entre les versions
Aller à la navigation
Aller à la recherche
mAucun résumé des modifications |
mAucun résumé des modifications |
||
Ligne 19 : | Ligne 19 : | ||
== Méthodes d'analyse == | == Méthodes d'analyse == | ||
..... | |||
== Exemple EduTechWiki == | |||
Cet exemple est directement inspiré par le billet [http://www.rexamine.com/2014/06/text-mining-in-r-automatic-categorization-of-wikipedia-articles/ Text mining in R – Automaticcategorization of Wikipedia articles] de Norbert Ryciak. | |||
===Prérequis === | |||
Il faut avoir les librairies stringi, proxi et tm. Donc si nécessaire, il faut les installer. Par exemple, en ligne de commande: | |||
install.packages("proxy") | |||
=== Importer les documents === | |||
On peut directement importer des pages html (donc des pages wiki): | |||
<source lang="bibtex"> | |||
library(tm) | |||
library(stringi) | |||
library(proxy) | |||
# le nom du wiki | |||
wiki <- "http://edutechwiki.unige.ch/fr/" | |||
# une liste de noms de pages | |||
titles <- c("STIC:STIC_I_-_exercice_1_(Utopia)", "STIC:STIC I - exercice 1 (Nestor-Pixel)", | |||
"STIC:STIC_I_-_exercice_2_(Utopia)", | |||
"STIC:STIC III (2012)/Module 1", "STIC:STIC III (2012)/Module 2") | |||
# un vecteur qui contient 5 strings vides ("") | |||
articles <- character(length(titles)) | |||
# lecture des contenus des pages wiki | |||
for (i in 1:length(titles)) { | |||
articles[i] <- stri_flatten(readLines(stri_paste(wiki, titles[i])), col = " ") | |||
} | |||
docs <- Corpus(VectorSource(articles)) | |||
</source> | |||
Version du 25 septembre 2014 à 15:59
Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.
Voir aussi:
Importation de documents
tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou Word, des documents Web (HTML, XML, SGML), etc.
Transformations
stemDocument()
stripWhitespace()
tmTolower()
Méthodes d'analyse
.....
Exemple EduTechWiki
Cet exemple est directement inspiré par le billet Text mining in R – Automaticcategorization of Wikipedia articles de Norbert Ryciak.
Prérequis
Il faut avoir les librairies stringi, proxi et tm. Donc si nécessaire, il faut les installer. Par exemple, en ligne de commande:
install.packages("proxy")
Importer les documents
On peut directement importer des pages html (donc des pages wiki):
library(tm)
library(stringi)
library(proxy)
# le nom du wiki
wiki <- "http://edutechwiki.unige.ch/fr/"
# une liste de noms de pages
titles <- c("STIC:STIC_I_-_exercice_1_(Utopia)", "STIC:STIC I - exercice 1 (Nestor-Pixel)",
"STIC:STIC_I_-_exercice_2_(Utopia)",
"STIC:STIC III (2012)/Module 1", "STIC:STIC III (2012)/Module 2")
# un vecteur qui contient 5 strings vides ("")
articles <- character(length(titles))
# lecture des contenus des pages wiki
for (i in 1:length(titles)) {
articles[i] <- stri_flatten(readLines(stri_paste(wiki, titles[i])), col = " ")
}
docs <- Corpus(VectorSource(articles))
Liens
- Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, Journal of Statistical software, Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
- Article complet par les auteurs du package et qui introduit le paquet tm (version 2008). Il contient aussi des exemples.
- Stefan Theussl, Ingo Feinerer & Kurt Hornik, Distributed Text Mining with tm, http://www.rinfinance.com/agenda/2010/Theussl+Feinerer+Hornik.pdf
- Aussi par les auteurs, contient des exemples différents.
- Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
- Assez utile pour débuter
- Text mining with R (slides) by Aleksei Beloshytski
- Montre (superficiellement) notamment comment analyser un blog, c'est à dire extraire les contenus, puis extraire les thèmes les plus populaires, clustering, etc.
- Text mining in R – Automatic categorization of Wikipedia articles par Norbert Ryciak, Juin 2014, article en ligne.
- Bref billet qui montre l'essentiel de ce qu'il faut savoir pour commencer à analyser EduTechwiki