Text mining avec R
Aller à la navigation
Aller à la recherche
Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.
Voir aussi:
Importation de documents
tm est conçu pour marcher avec une variété de formats: textes simple, des articles/papiers en PDF ou Word, des documents Web (HTML, XML, SGML), etc.
Transformations
stemDocument()
stripWhitespace()
tmTolower()
Méthodes d'analyse
Liens
- Ingo Feinerer, Kurt Hornik, David Meyer (2008). Text Mining Infrastructure in R, Journal of Statistical software, Vol. 25, Issue 5, http://www.jstatsoft.org/v25/i05/ (open contents)
- Article complet par les auteurs du package et qui introduit le paquet tm (version 2008). Il contient aussi des exemples.
- Stefan Theussl, Ingo Feinerer & Kurt Hornik, Distributed Text Mining with tm, http://www.rinfinance.com/agenda/2010/Theussl+Feinerer+Hornik.pdf
- Aussi par les auteurs, contient des exemples différents.
- Jon Starkweather, Introduction to basic Text Mining in R, http://it.unt.edu/benchmarks/issues/2014/01/rss-matters
- Assez utile pour débuter
- Text mining with R (slides) by Aleksei Beloshytski
- Montre (superficiellement) notamment comment analyser un blog, c'est à dire extraire les contenus, puis extraire les thèmes les plus populaires, clustering, etc.
- Text mining in R – Automatic categorization of Wikipedia articles par Norbert Ryciak, Juin 2014, article en ligne.
- Bref billet qui montre l'essentiel de ce qu'il faut savoir pour commencer à analyser EduTechwiki