LightSide

De EduTech Wiki
Aller à la navigation Aller à la recherche
Analytique et exploration de données
Module: Outils text mining
à améliorer avancé
2014/12/18 ⚒⚒ 2014/11/19
Catégorie: Outils text mining

Introduction

Logo LightSide

LightSide est une plate-forme de recherche open source disponible pour la recherche en éducation et pour la recherche générale. On peut télécharger la version stable (mars 14, 2014) ou une version à tester (octobre 30, 2014). Cette présentation correspond à la version stable.

Présentation

Interface Principale de LightSide

LightSide se compose de 6 onglets qui suivent tout le processus de l’apprentissage automatique. Le premier onglet permet de transformer des documents en tableaux descriptifs, le deuxième permet d’ajuster les tableaux manuellement et dans le troisième on utilise des algorithmes modernes pour découvrir des patterns latents, ce qui donne comme résultat un classificateur qui est capable d’imiter l’annotation faite par les humains. Les derniers trois onglets permettent à l’utilisateur d’explorer les modèles formés et de les utiliser pour annoter des données. Le quatrième onglet offre des outils d’analyse d’erreur qui donnent l’occasion aux chercheurs de comprendre ce que leurs modèles arrivent à bien faire et ce qu’ils n’arrivent pas à faire. Le cinquième onglet permet de comparer les résultats entre deux modèles formés et le dernier onglet permet d’utiliser les modèles formés résultants pour annoter des données qui n’ont pas été annotées auparavant.

On peut lire le manuel, en anglais, dont la dernière actualisation remonte au printemps de 2014 (version 2.2.11). Le manuel est assez complet et inclut l’information sur l’installation ainsi que sur l’extraction des données, la structuration des données, l’analyse des erreurs, la comparaison des modèles, l’apprentissage automatique (machine learning en anglais) et un glossaire de termes en relation avec l’interface.

Utilisation

Pour l’utilisation de cet outil les données doivent se trouver dans un tableur (type Excel). La première ligne devra présenter les noms des différents champs de données, chaque colonne devrait présenter les données et à gauche on devrait trouver les labels donnés par un humain. Le format du document doit être un fichier au format CSV .

Développeurs

Carnegie Mellon University’s.

  • Elijah Mayfield
  • David Adamson
  • Carolyn Rosé

Références