« Méthodes de classification en text mining » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Ligne 15 : Ligne 15 :
== Références ==
== Références ==


* Brown, S. (s.d.) K nearest neighbor ([www.cs.uvm.edu/~xwu/kdd/kNN-11.ppt support de cours ppt])
* Ghosh, S, Roy, S et Bandyopadhyay, S. (2012). A tutorial review on Text Mining Algorithms. ''International Journal of Advanced Research in Computer and Communication Engineering, 1''(4) ([http://www.ijarcce.com/upload/june/6-A%20tutorial%20review%20on%20Text%20Mining%20Algorithms.pdf pdf])
* Grivel, L. (s.d.) Outils de classification et de catégorisation pour la fouille de textes ([http://www.irit.fr/SDC2006/cdrom/contributions/Grivel-isko-sdc.pdf pdf])
* Grivel, L. (s.d.) Outils de classification et de catégorisation pour la fouille de textes ([http://www.irit.fr/SDC2006/cdrom/contributions/Grivel-isko-sdc.pdf pdf])
* Gupta, V. et Lehal, G. (2009) A Survey of Text Mining Techniques and Applications. ''Journal of Emerging Technologies in Web Intelligence, 1''(1) ([http://www.academypublisher.com/jetwi/vol01/no1/jetwi01016076.pdf pdf])
* Gupta, V. et Lehal, G. (2009) A Survey of Text Mining Techniques and Applications. ''Journal of Emerging Technologies in Web Intelligence, 1''(1) ([http://www.academypublisher.com/jetwi/vol01/no1/jetwi01016076.pdf pdf])
* Grimal, C. et Bisson, G. (s.d.) Amélioration de la co-similarité pour la classification de documents ([http://membres-lig.imag.fr/grimal/paper/grimal2011cap.pdf pdf])
* Grimal, C. et Bisson, G. (s.d.) Amélioration de la co-similarité pour la classification de documents ([http://membres-lig.imag.fr/grimal/paper/grimal2011cap.pdf pdf])
* Radovanovic, M. et Ivanovic, M. (2008) Text Mining: approaches and applications. ''Novi Sad Journal of Mathematics, 38''(3).
* Tellier, I. (s.d.) Introduction à la fouille de textes. ([http://www.lattice.cnrs.fr/sites/itellier/poly_fouille_textes/fouille-textes.pdf pdf])
* Tellier, I. (s.d.) Introduction à la fouille de textes. ([http://www.lattice.cnrs.fr/sites/itellier/poly_fouille_textes/fouille-textes.pdf pdf])


=== Références R ===
=== Références R ===


* Feinerer, I. Hornik, K et Meyer, D. (2008) Text mining infrastructures in R ([https://www.google.ch/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0CCIQFjAA&url=http%3A%2F%2Fwww.jstatsoft.org%2Fv25%2Fi05%2Fpaper&ei=dnOEVNHPCqjXyQPV34L4Dg&usg=AFQjCNE0db8VO8G2hDP4B8V1fj-5aQxdGg&sig2=Pjks6wyk5IAisVhILgHaUg&bvm=bv.80642063,d.d2s pdf])
* Feinerer, I. Hornik, K et Meyer, D. (2008) Text mining infrastructures in R ([http://www.jstatsoft.org/v25/i05/paper pdf])

Version du 7 décembre 2014 à 16:49

A l'inverse de la classification où les catégories n'étaient pas connues par avance, la classification essaie de classer les documents du corpus dans un certain nombre de catégories prédéfinies. Elle peut se rapprocher d'une analyse de thématique "Topic modelling", mais, à l'inverse de ce dernier, elle ne permet pas l'attribution de plusieurs catégorie à un même document. Un exemple concret de catégorisation serait de différencier le emails de spam (pourriels) des emails légitimes.

Ces méthodes sont basées sur une phase d'apprentissage, où certains documents servent à établir une base contre laquelle les autres documents seront classés.

Catégorisation linéaire Rocchio

On classe un document dans la catégorie dont il est le plus proche du barycentre (selon la distance que l'on a choisie, voir plus haut la distance du cosinus).

Catégorisation par les k plus proches voisins

On classe un document dans la même catégorie que la majorité (pondérée) de ses k plus proches voisins (selon la distance que l'on a choisie, voir plus haut la distance du cosinus).

Pour plus d'informations, voir la page des Méthodes de classification en text mining


Références

  • Brown, S. (s.d.) K nearest neighbor ([www.cs.uvm.edu/~xwu/kdd/kNN-11.ppt support de cours ppt])
  • Ghosh, S, Roy, S et Bandyopadhyay, S. (2012). A tutorial review on Text Mining Algorithms. International Journal of Advanced Research in Computer and Communication Engineering, 1(4) (pdf)
  • Grivel, L. (s.d.) Outils de classification et de catégorisation pour la fouille de textes (pdf)
  • Gupta, V. et Lehal, G. (2009) A Survey of Text Mining Techniques and Applications. Journal of Emerging Technologies in Web Intelligence, 1(1) (pdf)
  • Grimal, C. et Bisson, G. (s.d.) Amélioration de la co-similarité pour la classification de documents (pdf)
  • Radovanovic, M. et Ivanovic, M. (2008) Text Mining: approaches and applications. Novi Sad Journal of Mathematics, 38(3).
  • Tellier, I. (s.d.) Introduction à la fouille de textes. (pdf)

Références R

  • Feinerer, I. Hornik, K et Meyer, D. (2008) Text mining infrastructures in R (pdf)