« Clustering et classification hiérarchique en text mining » : différence entre les versions

Version du 30 octobre 2014 à 16:39

Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.

clustering basé sur une distance

Définition d'une distance

Voir Text Mining#Similarité pour un survol.

à détailler un peu plus ici

Autres bases possibles pour la classification

D'autres bases existent pour la classification que la définition d'une distance poiur définir la similarité entre deux termes. On peut voir à ce sujet Aggarwal & Zhai qui distinguent

la méthode LSI
la méthode NMF (Non-negative Matrix Factorisation)
les méthodes basées sur l'entropie

ou encore Pons & Latapy au sujet des marches aléatoires.

Méthodes de regroupement

Références

Berry, M. & Castellanos, M. (2007) Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition PDF

Aggarwal, C. & Zhai C. (2012). A Survey of Clustering Algorithms, in Mining Text Data, Springer. ch4 PDF

Grivel, L. (s.d.) Outils de classification et de catégorisation pour la fouille de textes. http://www.irit.fr/SDC2006/cdrom/contributions/Grivel-isko-sdc.pdf PDF]

Feinerer, I., Hornik, K. & Meyer, D. (2008). Text Mining Infrastructure in R. Journal of Statistical Software, 25. PDF

Pons, P. & Latapy, M. (2005) Computing communities in large networks using random walks PDF

Manuel R

kmeans : K-Means Clustering

hclust : Hierarchical Clustering

Références informelles

Beloshytski, A. TextMining with R

Ryciak, N. Text mining in R – Automatic categorization of Wikipedia articles

Wikipedia Cluster analysis

Wikipedia Hierachical clustering

Wikipedia Partitionnement de données

Wikipedia Non-negative Matrix Factorisation

@@ Ligne 1 : / Ligne 1 : @@
 {{ebauche}}
+== clustering basé sur une distance ==
+==Définition d'une distance ==
+Voir [[Text Mining#Similarité]] pour un survol.
+'''à détailler un peu plus ici'''
+== Autres bases possibles pour la classification ==
+D'autres bases existent pour la classification que la définition d'une distance poiur définir la similarité entre deux termes. On peut voir à ce sujet [http://www.charuaggarwal.net/text-cluster.pdf Aggarwal & Zhai] qui distinguent
+* la méthode LSI
+* la méthode NMF (Non-negative Matrix Factorisation)
+* les méthodes basées sur l'entropie
+ou encore [http://arxiv.org/pdf/physics/0512106v1.pdf Pons & Latapy] au sujet des marches aléatoires.
+===Méthodes de regroupement ===
 == Références ==
@@ Ligne 10 : / Ligne 28 : @@
 * Feinerer, I., Hornik, K. & Meyer, D. (2008). Text Mining Infrastructure in R. ''Journal of Statistical Software, 25''.  [http://www.jstatsoft.org/v25/i05/paper PDF]
+* Pons, P. & Latapy, M. (2005) Computing communities in large networks using random walks [http://arxiv.org/pdf/physics/0512106v1.pdf PDF]
 === Manuel R ===
@@ Ligne 27 : / Ligne 47 : @@
 * [http://fr.wikipedia.org/wiki/Partitionnement_de_donn%C3%A9es Wikipedia Partitionnement de données]
+* [http://en.wikipedia.org/wiki/Non-negative_matrix_factorization Wikipedia Non-negative Matrix Factorisation]

« Clustering et classification hiérarchique en text mining » : différence entre les versions

Version du 30 octobre 2014 à 16:39

Sommaire

clustering basé sur une distance

Définition d'une distance

Autres bases possibles pour la classification

Méthodes de regroupement

Références

Manuel R

Références informelles

Menu de navigation

« Clustering et classification hiérarchique en text mining » : différence entre les versions

Version du 30 octobre 2014 à 16:39

clustering basé sur une distance

Définition d'une distance

Autres bases possibles pour la classification

Méthodes de regroupement

Références

Manuel R

Références informelles

Menu de navigation

Rechercher

« Clustering et classification hiérarchique en text mining » : différence entre les versions