Text mining

Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.

Voir aussi:

Text mining avec R

Notions de base

Fréquence de termes

La fréquence de termes (term frequency, tf): Basée sur l'importance d'un terme pour un document.; L'indicateur est proportionnel à la fréquence du terme dans le document; Donc pour un terme_i dans un document_j: tf_i,j = f(t_i, d_j)

La fréquence inverse (Inverse of document frequency, idf)

Mesure la discrimination d'un terme dans le corpus

Un terme qui apparaît souvent dans le corpus est moins important qu'un terme moins fréquent (http://www.lguezouli.univbatna.com/index_fichiers/Master2/SRI/RIT/RIT_TP_04.pdf TP, Approche basée sur tf*idf]

idf_i = log ₁₀ (N / df_{i)
N = nombre de documents dans le corpus
df_i = nombre de documents contnant le terme t_i}

Les Matrices termes-documents

Les matrices termes-documents et documents termes résument les mots que l'on retrouve dans divers document d'un corpus.

Matrices documents-termes (Document Term Matrix, DTM): Chaque ligne représente un document, chaque colonne un terme (mot)

      Alpha Beta Creux
doc1  2     1    ....
doc2  1
doc3  2

Matrice termes-documents (Term Document Matrix, TDM): Chaque ligne représente un terme (mot), chaque colonne un document

        doc1 doc2 doc3
Alpha   2    1    2
Beta    1    0    3
Creux   0    1    0

A partir de ce type de matrice on peut effectuer plusieurs analyses.

Similarité

L'approche classique simple définit deux documents comme similaires si les deux partagent des termes

Le modèle de Salton (1971) (selon Clément Grimal et Gilles Bisson

Deux documents sont similaires s'ils contiennent des termes similaires
Deux termes sont similaires s'ils apparaissent dans des documents similaires

Cette méthode souffre du fait que les gens n'utilisent pas toujours les mêmes mots pour parler de la même chose. Ce problème est accentué lorsqu'on a des petites textes.

Exemple:

Cette application est facile à utiliser.
Ce logiciel est facile à utiliser.

On constate:

Une relation de premier ordre entre application, facile et utiliser (ou entre logiciel, facile, utiliser)
Une relation de 2ème ordre (détectable facilement par les humains) entre "application" et "logiciel". Détecter ce type de relation est nettement plus difficile et peut se faire avec des algorithmes comme LSA, X-SIM, et CTK.

Grimal et Bisson distinguent entre 5 mesures de similarité:

Le cosinus
X-Sim (avec ou sans k et p) [Hussain et al.(2010)]
LSA (Latent Semantic Analysis) [Deerwester et al.(1990)]
SNOS (Similarity in Non-Orthogonal Space) [Liu et al.(2004)]
CTK (Commute Time Kernel) [Yen et al.(2009)

+Classification Ascendante Hiérarchique, avec l'indice de Ward

Liens en Anglais

(à bouger un jour ...)

General

(websites, blogs, etc.)

Quantifying memory. Includes tutorials for course about web scraping through R:

Machine learning

Webcast: How to Develop Language Annotations for Machine Learning Algorithms
MATTER Annotation Development Process: Model, Annotate, Train, Test, Evaluate, and Revise your training corpus. ** James Pustejovsky, Amber Stubbs (2012). Natural Language Annotation for Machine Learning A Guide to Corpus-Building for Applications, O'Reilly, http://shop.oreilly.com/product/0636920020578.do

Topic modeling

David Blaye's home page Includes an introduction to topic modelling.

Summarization of microblogs

http://anthology.aclweb.org//E/E14/E14-4046.pdf
- https://github.com/andreiolariu/online-summarizer (code)

Bibliographie

Gilles Bisson et Clément Grimal, Apprentissage multi-vue de co-similarités pour la classification, CAp, 2012. Paper, Slides

Clément Grimal et Gilles Bisson, Amélioration de la co-similarité pour la classification de documents, CAP 2011, Paper, Slides

S. F. Hussain, C. Grimal, and G. Bisson. An improved co-similarity measure for document clustering. In Proceedings of the 9th ICMLA, 2010.

S. Deerwester, S. T. Dumais, G. W. Furnas, Thomas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41:391-407, 1990.

N. Liu, B. Zhang, J. Yan, Q. Yang, S. Yan, Z. Chen, F. Bai, and W. ying Ma. Learning similarity measures in non-orthogonal space. In Proceedings of the 13th ACM CIKM, pages 334-341. ACM Press, 2004.

L. Yen, F. Fouss, C. Decaestecker, P. Francq, and M. Saerens. Graph nodes clustering with the sigmoid commute-time kernel: A comparative study. Data Knowl. Eng., 68(3):338-361, 2009

Text mining

Sommaire

Notions de base

Fréquence de termes

Les Matrices termes-documents

Similarité

Liens en Anglais

General

Machine learning

Topic modeling

Summarization of microblogs

Bibliographie

Menu de navigation

Text mining

Notions de base

Fréquence de termes

Les Matrices termes-documents

Similarité

Liens en Anglais

General

Machine learning

Topic modeling

Summarization of microblogs

Bibliographie

Menu de navigation

Rechercher