Text mining
Aller à la navigation
Aller à la recherche
Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.
Voir aussi:
Notions de base
- Term Document Matrix (TDM)
- Une matrice TDM reflète le nombre de mots que l'on trouve dans divers documents d'un corpus
doc1 doc2 doc3
Alpha 2 1 2
Beta 1 0 3
Creux 0 1 0
- Document Term Matric (DTM)
- contient la même information, mais la matrice est définie dans l'autre sens
Alpha Beta Creux
doc1 2 1 ....
doc2 1
doc3 2
Liens en Anglais
(à bouger un jour ...)
General
(websites, blogs, etc.)
- Quantifying memory. Includes tutorials for course about web scraping through R:
Machine learning
- Webcast: How to Develop Language Annotations for Machine Learning Algorithms
- MATTER Annotation Development Process: Model, Annotate, Train, Test, Evaluate, and Revise your training corpus. ** James Pustejovsky, Amber Stubbs (2012). Natural Language Annotation for Machine Learning A Guide to Corpus-Building for Applications, O'Reilly, http://shop.oreilly.com/product/0636920020578.do
Topic modeling
- David Blaye's home page Includes an introduction to topic modelling.