« Text mining avec R » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
(Page créée avec « {{Ebauche}} Voir aussi: * R == Importation de documents == tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou... »)
 
mAucun résumé des modifications
Ligne 24 : Ligne 24 :


* Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, ''Journal of Statistical software'', Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
* Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, ''Journal of Statistical software'', Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
** Article complet qui introduit le paquet tm (version 2008). Il contient aussi des exemples.
** Article complet par les auteurs du package et qui introduit le paquet tm (version 2008). Il contient aussi des exemples.


* Stefan Theussl, Ingo Feinerer & Kurt Hornik, Distributed Text Mining with tm, http://www.rinfinance.com/agenda/2010/Theussl+Feinerer+Hornik.pdf
* Stefan Theussl, Ingo Feinerer & Kurt Hornik, Distributed Text Mining with tm, http://www.rinfinance.com/agenda/2010/Theussl+Feinerer+Hornik.pdf
** Aussi par les auteurs, contient des exemples différents.


* Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
* Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
** Assez utile pour débuter
* [http://www.slideshare.net/whitish/textmining-with-r Text mining with R] (slides) by Aleksei Beloshytski
** Montre (superficiellement) notamment comment analyser un blog, c'est à dire extraire les contenus, puis extraire les thèmes les plus populaires, clustering, etc.
* [http://www.rexamine.com/2014/06/text-mining-in-r-automatic-categorization-of-wikipedia-articles/ Text mining in R – Automatic categorization of Wikipedia articles] par Norbert Ryciak, Juin 2014, article en ligne.
** Bref billet qui montre l'essentiel de ce qu'il faut savoir pour commencer à analyser EduTechwiki




[[Catégorie:Analytique et exploration de données]]
[[Catégorie:Analytique et exploration de données]]

Version du 25 septembre 2014 à 15:07

Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.


Voir aussi:

Importation de documents

tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou Word, des documents Web (HTML, XML, SGML), etc.


Transformations

stemDocument()

stripWhitespace()

tmTolower()

Méthodes d'analyse

Liens

  • Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, Journal of Statistical software, Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
    • Article complet par les auteurs du package et qui introduit le paquet tm (version 2008). Il contient aussi des exemples.
  • Text mining with R (slides) by Aleksei Beloshytski
    • Montre (superficiellement) notamment comment analyser un blog, c'est à dire extraire les contenus, puis extraire les thèmes les plus populaires, clustering, etc.