« Text mining » : différence entre les versions

Version du 20 octobre 2014 à 11:42

Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.

Voir aussi:

Text mining avec R

Notions de base

Les Matrices termes-documents

Les matrices termes-documents et documents termes résument les mots que l'on retrouve dans divers document d'un corpus.

Matrices documents-termes (Document Term Matrix, DTM): Chaque ligne représente un document, chaque colonne un terme (mot)

      Alpha Beta Creux
doc1  2     1    ....
doc2  1
doc3  2

Matrice termes-documents (Term Document Matrix, TDM): Chaque ligne représente un terme (mot), chaque colonne un document

        doc1 doc2 doc3
Alpha   2    1    2
Beta    1    0    3
Creux   0    1    0

A partir de ce type de matrice on peut effectuer plusieurs analyses.

Similarité

L'approche classique simple définit deux documents comme similaires si les deux partagent des termes

Le modèle de Salton (1971) (selon Clément Grimal et Gilles Bisson

Deux documents sont similaires s'ils contiennent des termes similaires
Deux termes sont similaires s'ils apparaissent dans des documents similaires

Grimal et Bisson distinguent entre 5 mesures de similarité:

Le cosinus
X-Sim (avec ou sans k et p) [Hussain et al.(2010)]
LSA (Latent Semantic Analysis) [Deerwester et al.(1990)]
SNOS (Similarity in Non-Orthogonal Space) [Liu et al.(2004)]
CTK (Commute Time Kernel) [Yen et al.(2009)

+Classification Ascendante Hiérarchique, avec l'indice de Ward

Liens en Anglais

(à bouger un jour ...)

General

(websites, blogs, etc.)

Quantifying memory. Includes tutorials for course about web scraping through R:

Machine learning

Webcast: How to Develop Language Annotations for Machine Learning Algorithms
MATTER Annotation Development Process: Model, Annotate, Train, Test, Evaluate, and Revise your training corpus. ** James Pustejovsky, Amber Stubbs (2012). Natural Language Annotation for Machine Learning A Guide to Corpus-Building for Applications, O'Reilly, http://shop.oreilly.com/product/0636920020578.do

Topic modeling

David Blaye's home page Includes an introduction to topic modelling.

Summarization of microblogs

http://anthology.aclweb.org//E/E14/E14-4046.pdf
- https://github.com/andreiolariu/online-summarizer (code)

@@ Ligne 6 : / Ligne 6 : @@
 == Notions de base ==
-; Term Document Matrix (TDM)
+=== Les Matrices termes-documents ===
-: Une matrice TDM reflète le nombre de mots que l'on trouve dans divers documents d'un corpus
+Les matrices termes-documents et documents termes résument les mots que l'on retrouve dans divers document d'un corpus.
+; Matrices documents-termes (Document Term Matrix, DTM)
+: Chaque ligne représente un document, chaque colonne un terme (mot)
+<source lang="javascript">
+      Alpha Beta Creux
+doc1  2     1    ....
+doc2  1
+doc3  2
+</source>
+; Matrice termes-documents (Term Document Matrix, TDM)
+: Chaque ligne représente un terme (mot), chaque colonne un document
 <source lang="javascript">
          doc1 doc2 doc3
@@ Ligne 15 : / Ligne 29 : @@
 </source>
-; Document Term Matric (DTM)
+A partir de ce type de matrice on peut effectuer plusieurs analyses.
-: contient la même information, mais la matrice est définie dans l'autre sens
-<source lang="javascript">
+== Similarité ==
-      Alpha Beta Creux
-doc1  2     1    ....
+L'approche classique simple définit deux documents comme similaires si les deux partagent des termes
-doc2  1
-doc3  2
+Le modèle de Salton (1971) (selon [http://membres-lig.imag.fr/grimal/paper/grimal2011cap_slides.pdf Clément Grimal et Gilles Bisson]
-</source>
+* Deux documents sont similaires s'ils contiennent des termes similaires
+* Deux termes sont similaires s'ils apparaissent dans des documents similaires
+[http://membres-lig.imag.fr/grimal/paper/grimal2011cap_slides.pdf Grimal et Bisson] distinguent entre 5 mesures de similarité:
+* Le cosinus
+* X-Sim (avec ou sans k et p) [Hussain et al.(2010)]
+* LSA (Latent Semantic Analysis) [Deerwester et al.(1990)]
+* SNOS (Similarity in Non-Orthogonal Space) [Liu et al.(2004)]
+* CTK (Commute Time Kernel) [Yen et al.(2009)
++Classification Ascendante Hiérarchique, avec l'indice de Ward
 == Liens en Anglais ==

« Text mining » : différence entre les versions

Version du 20 octobre 2014 à 11:42

Sommaire

Notions de base

Les Matrices termes-documents

Similarité

Liens en Anglais

General

Machine learning

Topic modeling

Summarization of microblogs

Menu de navigation

« Text mining » : différence entre les versions

Version du 20 octobre 2014 à 11:42

Notions de base

Les Matrices termes-documents

Similarité

Liens en Anglais

General

Machine learning

Topic modeling

Summarization of microblogs

Menu de navigation

Rechercher

« Text mining » : différence entre les versions