« Clustering et classification hiérarchique en text mining » : différence entre les versions
Aller à la navigation
Aller à la recherche
Ligne 10 : | Ligne 10 : | ||
== Autres bases possibles pour la classification == | == Autres bases possibles pour la classification == | ||
D'autres bases existent pour la classification que la définition d'une distance poiur définir la similarité entre deux termes. On peut voir à ce sujet [http://www.charuaggarwal.net/text-cluster.pdf Aggarwal & Zhai] qui distinguent | D'autres bases existent pour la classification que la définition d'une distance poiur définir la similarité entre deux termes. On peut voir à ce sujet [http://www.charuaggarwal.net/text-cluster.pdf Aggarwal & Zhai] qui distinguent | ||
* la méthode LSI | * la méthode LSI () qui cherche a grouper les termes synonymes avant la classification. A ce sujet, voir [https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf Senellart & Blondel in Berry & Castellanos (2007), p25] | ||
* la méthode NMF (Non-negative Matrix Factorisation) | * la méthode NMF (Non-negative Matrix Factorisation) dont le but est d'extraire de la matrice termes-documents un ensemble plus restreint de caractéristiques sur lesquelles seront appliqué la classification. | ||
* les méthodes basées sur l'entropie | * les méthodes basées sur l'entropie | ||
ou encore [http://arxiv.org/pdf/physics/0512106v1.pdf Pons & Latapy] au sujet des marches aléatoires. | ou encore [http://arxiv.org/pdf/physics/0512106v1.pdf Pons & Latapy] au sujet des marches aléatoires. | ||
===Méthodes de regroupement === | ===Méthodes de regroupement === | ||
== Références == | == Références == |
Version du 30 octobre 2014 à 16:51
Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.
clustering basé sur une distance
Définition d'une distance
Voir Text Mining#Similarité pour un survol.
à détailler un peu plus ici
Autres bases possibles pour la classification
D'autres bases existent pour la classification que la définition d'une distance poiur définir la similarité entre deux termes. On peut voir à ce sujet Aggarwal & Zhai qui distinguent
- la méthode LSI () qui cherche a grouper les termes synonymes avant la classification. A ce sujet, voir Senellart & Blondel in Berry & Castellanos (2007), p25
- la méthode NMF (Non-negative Matrix Factorisation) dont le but est d'extraire de la matrice termes-documents un ensemble plus restreint de caractéristiques sur lesquelles seront appliqué la classification.
- les méthodes basées sur l'entropie
ou encore Pons & Latapy au sujet des marches aléatoires.
Méthodes de regroupement
Références
- Berry, M. & Castellanos, M. (2007) Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition PDF
- Aggarwal, C. & Zhai C. (2012). A Survey of Clustering Algorithms, in Mining Text Data, Springer. ch4 PDF
- Grivel, L. (s.d.) Outils de classification et de catégorisation pour la fouille de textes. http://www.irit.fr/SDC2006/cdrom/contributions/Grivel-isko-sdc.pdf PDF]
- Feinerer, I., Hornik, K. & Meyer, D. (2008). Text Mining Infrastructure in R. Journal of Statistical Software, 25. PDF
- Pons, P. & Latapy, M. (2005) Computing communities in large networks using random walks PDF
Manuel R
Références informelles
- Beloshytski, A. TextMining with R