« Text mining » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Ligne 64 : Ligne 64 :


* [http://www.cs.princeton.edu/~blei/topicmodeling.html David Blaye's home page] Includes an introduction to topic modelling.
* [http://www.cs.princeton.edu/~blei/topicmodeling.html David Blaye's home page] Includes an introduction to topic modelling.


=== Summarization of microblogs ===
=== Summarization of microblogs ===
Ligne 70 : Ligne 69 :
* http://anthology.aclweb.org//E/E14/E14-4046.pdf
* http://anthology.aclweb.org//E/E14/E14-4046.pdf
** https://github.com/andreiolariu/online-summarizer (code)
** https://github.com/andreiolariu/online-summarizer (code)
== Bibliographie ==
* Gilles Bisson et Clément Grimal, Apprentissage multi-vue de co-similarités pour la classification, CAp, 2012. [http://membres-lig.imag.fr/grimal/paper/bisson2012cap.pdf Paper], [http://membres-lig.imag.fr/grimal/paper/bisson2012cap_slides.pdf Slides]
* S. F. Hussain, C. Grimal, and G. Bisson. An improved co-similarity measure for document clustering. In Proceedings of the 9th ICMLA, 2010.
* S. Deerwester, S. T. Dumais, G. W. Furnas, Thomas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41:391-407, 1990.
* N. Liu, B. Zhang, J. Yan, Q. Yang, S. Yan, Z. Chen, F. Bai, and W. ying Ma. Learning similarity measures in non-orthogonal space. In Proceedings of the 13th ACM CIKM, pages 334-341. ACM Press, 2004.
* L. Yen, F. Fouss, C. Decaestecker, P. Francq, and M. Saerens. Graph nodes clustering with the sigmoid commute-time kernel: A comparative study. Data Knowl. Eng., 68(3):338-361, 2009


[[category:Analytique et exploration de données]]
[[category:Analytique et exploration de données]]

Version du 20 octobre 2014 à 11:48

Cet article est une ébauche à compléter. Une ébauche est une entrée ayant un contenu (très) maigre et qui a donc besoin d'un auteur.

Voir aussi:

Notions de base

Les Matrices termes-documents

Les matrices termes-documents et documents termes résument les mots que l'on retrouve dans divers document d'un corpus.

Matrices documents-termes (Document Term Matrix, DTM)
Chaque ligne représente un document, chaque colonne un terme (mot)
      Alpha Beta Creux
doc1  2     1    ....
doc2  1
doc3  2


Matrice termes-documents (Term Document Matrix, TDM)
Chaque ligne représente un terme (mot), chaque colonne un document
        doc1 doc2 doc3
Alpha   2    1    2
Beta    1    0    3
Creux   0    1    0

A partir de ce type de matrice on peut effectuer plusieurs analyses.

Similarité

L'approche classique simple définit deux documents comme similaires si les deux partagent des termes

Le modèle de Salton (1971) (selon Clément Grimal et Gilles Bisson

  • Deux documents sont similaires s'ils contiennent des termes similaires
  • Deux termes sont similaires s'ils apparaissent dans des documents similaires

Grimal et Bisson distinguent entre 5 mesures de similarité:

  • Le cosinus
  • X-Sim (avec ou sans k et p) [Hussain et al.(2010)]
  • LSA (Latent Semantic Analysis) [Deerwester et al.(1990)]
  • SNOS (Similarity in Non-Orthogonal Space) [Liu et al.(2004)]
  • CTK (Commute Time Kernel) [Yen et al.(2009)

+Classification Ascendante Hiérarchique, avec l'indice de Ward

Liens en Anglais

(à bouger un jour ...)

General

(websites, blogs, etc.)

Machine learning

Topic modeling

Summarization of microblogs

Bibliographie

  • Gilles Bisson et Clément Grimal, Apprentissage multi-vue de co-similarités pour la classification, CAp, 2012. Paper, Slides
  • S. F. Hussain, C. Grimal, and G. Bisson. An improved co-similarity measure for document clustering. In Proceedings of the 9th ICMLA, 2010.
  • S. Deerwester, S. T. Dumais, G. W. Furnas, Thomas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41:391-407, 1990.
  • N. Liu, B. Zhang, J. Yan, Q. Yang, S. Yan, Z. Chen, F. Bai, and W. ying Ma. Learning similarity measures in non-orthogonal space. In Proceedings of the 13th ACM CIKM, pages 334-341. ACM Press, 2004.
  • L. Yen, F. Fouss, C. Decaestecker, P. Francq, and M. Saerens. Graph nodes clustering with the sigmoid commute-time kernel: A comparative study. Data Knowl. Eng., 68(3):338-361, 2009