« STIC:Mons2014 » : différence entre les versions

Version du 2 décembre 2014 à 19:55

Séminaire Analyse de Données Textuelles

Unité de technologie de l'éducation

Département des Sciences et de la Technologie de l'Education

Université de Mons

Mercredi/jeui 3/4 décembre 2014

Animateur

Daniel K. Schneider

TECFA, Université de Genève

Résumé du programme

Titre: Méthodes et outils d'analyse de données textuelles, un nouveau souffle ?

L'analyse de données textuelles, notamment sous le label "text mining" connait un nouvel essor grâce à son usage dans les technologies web (indexage, recherche et analytique). Le text mining est aussi utilisé dans le « learning analytics ». Ces derniers ont aussi comme objectif de permettre aux enseignants et aux apprenants de « comprendre ce qui se passe », c’est-à-dire, donner un aperçu du comportement et des productions des participants. Certains comportements et productions sont textuels (travaux, forums, pages wiki, messages, etc.)

Dans ce séminaire nous allons nous pencher sur des outils "text mining" et nous interroger comment ils pourraient contribuer à la qualité de l'enseignement et de l'apprentissage.

La première journée sera d'abord consacrée à une petite introduction aux divers méthodes d'analyse automatique de texte. On explorera ensuite les nouveaux outils en ligne qui permettent d'effectuer des analyses simples de façon conviviale (Voyant, Taporware, DocuBurst, etc).

La deuxième journée sera consacré à une initiation au logiciel R et aux extensions diverses pour récupérer, préparer, transformer et analyser des textes. R semble devenir une solution de choix dans la recherche et malgré l'absence d'une interface conviviale. Un autre avantage de R est qu'on peut l'interfacer avec une plateforme en ligne afin de produire des analyses en temps réel. S'il reste du temps, on fera un petit tour d'autres outils.

Nous allons finir le séminaire avec une discussion sur quelques scénarios d'usage.

Programme détaillé

(à faire)

Survol de méthodes

Diversité de méthodes de traitements informatisés de texte et d'outils: textométrie, linguistique de corpus, text mining, annotations, etc.

Workflow pour les analyses statistiques

Tour d'outils en ligne

Formulaire de recherche (EduTechWiki Anglais: Sélectionnez "text mining")

Liste de logiciels qu'on discutera

Voyant: http://voyant-tools.org/
Taporware: http://taporware.ualberta.ca/~taporware/
Lexos: http://lexos.wheatoncollege.edu/
Docuburst: http://vialab.science.uoit.ca/docuburst/
...

Introduction au text mining avec R

Tutoriels R

Usages pédagogiques

Ressources

Listes d'outils

Data mining and LA tools (EduTechWiki/en)
Dirt Directory, text mining category. Probably the best source.
Méthodes qualitatives informatisées
Bookmarks for Corpus-based Linguists (David Lee), et surtout Software, Tools, Freq Lists, etc.

Textes en ligne

Projet Gutenberg: https://www.gutenberg.org/
Voir aussi Krajka, Jarosław (2007) Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections.

CORELL: Computer Resources for Language Learning 1, 36-55. PDF

Extraire des texte d'un Mediawiki: Au lieu d'enregistrer une page en HTML, il vaut mieux sortir une version XMLisée via l'Mediawiki

http://edutechwiki.unige.ch/fmediawiki/api.php?action=parse&format=xml&page=...
http://fr.wikipedia.org/w/api.php?action=parse&format=xml&page=

Exemple: http://fr.wikipedia.org/w/api.php?action=parse&format=xml&page=mons

@@ Ligne 52 : / Ligne 52 : @@
 === Usages pédagogiques ===
-== Programme provisoire ==
+== Ressources ==
-......
+; Listes d'outils
+* [http://edutechwiki.unige.ch/en/Portal:_Data_mining_and_learning_analytics_tools Data mining and LA tools] (EduTechWiki/en)
+* [http://dirtdirectory.org/categories/text-mining Dirt Directory], text mining category. Probably the best source.
+* [http://www.squash.ulg.ac.be/software/ Méthodes qualitatives informatisées]
+* [http://tiny.cc/corpora  Bookmarks for Corpus-based Linguists] (David Lee), et surtout [http://www.uow.edu.au/~dlee/software.htm Software, Tools, Freq Lists, etc.]
+; Textes en ligne
+* Projet Gutenberg: https://www.gutenberg.org/
+* Voir aussi Krajka, Jarosław (2007) Corpora and Language Teachers: From Ready-Made to Teacher-Made Collections.
+CORELL: Computer Resources for Language Learning 1, 36-55. [http://www.ucam.edu/sites/default/files/corell/JKrajka.pdf PDF]
+; Extraire des texte d'un Mediawiki
+: Au lieu d'enregistrer une page en HTML, il vaut mieux sortir une version XMLisée via l'[http://www.mediawiki.org/wiki/API:Main_pageAPI Mediawiki]
+* <nowiki>http://edutechwiki.unige.ch/fmediawiki/api.php?action=parse&format=xml&page=...</nowiki>
+* <nowiki>http://fr.wikipedia.org/w/api.php?action=parse&format=xml&page=</nowiki>
+: Exemple: http://fr.wikipedia.org/w/api.php?action=parse&format=xml&page=mons

« STIC:Mons2014 » : différence entre les versions

Version du 2 décembre 2014 à 19:55

Sommaire

Séminaire Analyse de Données Textuelles

Programme détaillé

Survol de méthodes

Workflow pour les analyses statistiques

Tour d'outils en ligne

Introduction au text mining avec R

Usages pédagogiques

Ressources

Menu de navigation

« STIC:Mons2014 » : différence entre les versions

Version du 2 décembre 2014 à 19:55

Séminaire Analyse de Données Textuelles

Programme détaillé

Survol de méthodes

Workflow pour les analyses statistiques

Tour d'outils en ligne

Introduction au text mining avec R

Usages pédagogiques

Ressources

Menu de navigation

Rechercher

« STIC:Mons2014 » : différence entre les versions