« Voyant Tools » : différence entre les versions
Aucun résumé des modifications |
|||
Ligne 149 : | Ligne 149 : | ||
[[Fichier:Voyant_interface_generale_beta.png]] | [[Fichier:Voyant_interface_generale_beta.png]] | ||
== Tutoriel == | == Tutoriel == | ||
=== Introduction === | |||
Pour ce tutoriel, nous allons faire une petite analyse sur le livre "Candide ou l'Optimisme", un texte de Voltaire très connu dans la littérature française. Cela permettra de mieux contextualiser l'utilisation des outils et quels types de données on peut en tirer. | |||
le texte analysé sera aussi utilisé dans le tutoriel de [[Taporware|Taporware 2.0]]. Un concurrent de Voyant Tools. Cela permettra à l'utilisateur de se rendre compte quel est le logiciel il vaut mieux utilisé pour tel ou tel outil d'analyse. Les deux étant complémentaires. | |||
=== Nettoyage du texte === | |||
La première étape a consisté a nettoyé le texte afin d'obtenir uniquement le contenu du livre. Pour cela, son titre, ses chapitres et son contenu ont été retenus pour l'analyse. Voyant Tools n'étant pas un outils très puissant pour analyser seulement des parties de texte. | |||
=== Début de l'analyse === | |||
Premièrement, il faut accéder au site Voyant Tools via cette URL : http://voyeurtools.org/ | |||
On upload le ou les texte(s) et on clique sur "reveal" afin de lancer l'analyse du texte. | |||
[[Fichier:VT_Tuto_1_import.png|500px|thumb|left|image qui montre l'importation (cliquez sur l'image pour l'agrandir)]]<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /> | |||
Une fois que cela est fait, on arrive sur l'interface générale. On va d'abord s'intéresser à l'outil "Cirrus". Avant de commencer l'analyse, sélectionner la "Stop Words List" dans les paramètres de l'outil (voir image). Afin de retirer les mots qui ne sont pas pertinents pour l'analyse comme "le, la, un, des, etc.". | |||
[[Fichier:VT_Tuto_2_stoplist.png|500px|thumb|left|image qui montre l'utilisation de la "Strop Words List" (cliquez sur l'image pour l'agrandir)]] | |||
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /> | |||
== Références == | == Références == |
Version du 16 décembre 2014 à 17:39
Indroduction
Voyant Tools appelé aussi Voyeur est un environnement d'analyse de texte en ligne. Son interface est faîte pour être facilement utilisée tout en étant flexible et puissante. Il fait parti d'Hermeneuti.ca, un projet collaboratif qui a pour but de développer des outils d'analyse de texte. En novembre 2014, il était toujours en phase beta car certaines fonctionnalités n'ont pas encore été intégrées.
Présentation
Qu'est Voyant Tools permet de faire?
Cet outil d'analyse de texte permet d'apprendre comment fonctionne l'analyse assistée par ordinateur. Il permet d'analyser des textes trouvés sur le web ou des textes contenus sur notre ordinateur, pour cela, il met à disposition de nombreux outils qui permettent d'analyser de plusieurs manières les textes. Grâce à lui, on peut aussi enrichir les pages web grâce à l'exportation de certaines fonctionnalités permettant d'ajouter des blocs interactifs qu'on peut facilement incruster dans les pages web. Il offre la possibilité de créer nos propres outils en utilisant leur code. Il est important de noter que Voyant Tools ne conserve pas les textes analysés dans une base de donnée, ce qui pourrait poser des problèmes de confidentialité.
Principes de conception
Ci-dessous, les différents points sur lesquels Voyant Tools est basé concernant sa conception :
- Modularité : les outils doivent être capables de s'adapter les uns avec les autres au sein de différentes configurations.
- Généralisation : les outils doivent être conçus pour répondre à plusieurs types de texte et à plusieurs types d'utilisations.
- Sensibilité de domaine : les outils doivent être sensibles à la façon dont les chercheurs travaillent et de la manière qu'ils interagissent avec des textes numériques.
- Flexibilité : les outils doivent être en mesure de travailler avec des ressources hébergées en local ou en ligne et qui peuvent être de formats différents.
- Internationalisation : les outils doivent permettre aux utilisateurs de travailler avec différentes langues.
- Performances : les outils doivent être performants sachant que c'est un environnement virtuel.
- Extensibilité : Pouvoir facilement créer de nouveaux outils et les adapter à ceux existants.
- Interopérabilité: les outils doivent fournir des API publiques afin qu'elles puissent interagir avec d'autres composants sur le web.
- Adaptation du thème graphique: les outils doivent de pouvoir être personnalisés afin de respecter les préférences des différents utilisateurs.
- Evolutivité: les outils doivent fournir des fonctionnalités pour de petits ou grands corpus.
- Simplicité: L'interface des outils doit être facile d'utilisation.
- Référençabilité : les outils et leurs résultats devraient pouvoir être référencés et cités comme des ressources académiques.
A qui s'adresse-t-il?
Il est très simple d'utilisation, il s'adresse donc autant aux chercheurs qu'aux étudiants ou aux personnes intéressés à faire de l'analyse de texte.
Formats
Les différents types de format proposés pour l'importation et l'exportation. Comme il est toujours en beta, cela est susceptible d'évoluer.
- Format d'importation : HTML, TXT, XML, PDF, DOC
- Format d'exportation : CSV, TXT, XML
Prix
Il est gratuit!
Caractéristiques clés de Voyant Tools
- Utiliser des textes venant de nombreux formats (HTML, XML, PDF, RTF et doc)
- Utiliser des textes venant d'URL ou de fichiers uploadés
- Faire des analyses lexicales, y compris l'étude de fréquence et de distribution des données
- exporter des données vers d'autres outils (XML, etc.)
- Intégrer des fonctionnalités de Voyeur sur des sites web
Outils proposés par Voyant Tools
Voyant Tools propose différents outils concernant l'analyse de texte. Pour plus de détails (en anglais) concernant les fonctions de l'outil, cliquez dessus.
Certains outils comme Lava ou Term Fountain, nécessitent une version trop ancienne de java et ne semblent plus fonctionner.
Outils triés par ordre alphabétique
Bubblelines
- Bubblelines : outil de visualisation des répétitions des mots dans un ou plusieurs documents.
Bubbles
- Bubbles : outil illustrant la fréquence des mots grâce à des bulles plus ou moins grosses.
(image du site officiel de la version beta de l'outil)
Cirrus
- Cirrus : outil permettant d'illustrer la fréquence des mots d'un ou plusieurs textes dans un nuage de mot.
(image du site officiel de la version beta de l'outil)
Corpus Grid
- Corpus Grid : outil présentant de façon générale le corpus sous forme de table.
(image du site officiel de la version beta de l'outil)
Corpus Summary
- Corpus Summary : outil permettant d'avoir une vue d'ensemble, de forme textuelle, du corpus actuel.
(image du site officiel de la version beta de l'outil)
Corpus Term Frequencies
- Corpus Term Frequencies : outil montrant une table de la fréquence et de la répartition des mots dans un corpus entier.
(image du site officiel de la version beta de l'outil)
Collocate Term Frequencies
- Collocate Term Frequencies : outil présentant sous forme de table la fréquence des mots autour d'un mot clé. (ne semble pas disponible)
Document Term Frequencies
- Document Term Frequencies : outil présentant une table de la fréquence des mots pour chaque document dans le corpus.
Document KWICs
- Document KWICs : outils illustrant une table de mots-clés avec leur contexte.
(image du site officiel de la version beta de l'outil)
Entities Browser
- Entities Browser : visualisation d'entités nommées. (ne semble pas disponible)
Knots
- Knots : outil de visualisation qui aide à comprendre la pertinence des mots dans un ou plusieurs documents.
(image du site officiel de la version beta de l'outil)
Lava
- Lava : outil permettant d'afficher plusieurs niveaux d'un corpus dans un environnement 3D.
(image du site officiel de la version beta de l'outil)
Links
- Links : outils permettant de visualiser la fréquence des mots et leur proximité.
(image du site officiel de la version beta de l'outil)
Mandala
- Mandala : outil de visualisation qui importe les fichiers textuels pour effectuer des analyses sur la fréquence et la liaison des mots.
(image du site officiel de la version beta de l'outil)
Reader
- Reader : outil permettant la lecture de documents dans un corpus.
(image du site officiel de la version beta de l'outil)
ScatterPlot
- ScatterPlot : outil permettant la création d'un nuage de points dans un graphe représentant les termes, espacés par leur variation.
(image du site officiel de la version beta de l'outil)
Term Frequencies Chart
- Term Frequencies Chart : outil permettant de savoir comment sont répartis les termes par texte dans un corpus grâce à un graphique.
(image du site officiel de la version beta de l'outil)
Term Fountain
- Term Fountain : outil permettant de visualiser sous forme de fontaine la fréquence des mots.
(image du site officiel de la version beta de l'outil)
Annexe
Retrouvez l'ensemble des informations sur les outils sur cette page (en).
Développeurs de Voyant Tools
Présentation de l'interface générale (beta)
Interface d'accueil
Nous avons l'interface d'accueil lorsque nous arrivons sur le site.
Interface générale
Ensuite, nous avons aussi l'interface générale lorsque le texte a été analysé. Voir explications sur l'image.
Tutoriel
Introduction
Pour ce tutoriel, nous allons faire une petite analyse sur le livre "Candide ou l'Optimisme", un texte de Voltaire très connu dans la littérature française. Cela permettra de mieux contextualiser l'utilisation des outils et quels types de données on peut en tirer.
le texte analysé sera aussi utilisé dans le tutoriel de Taporware 2.0. Un concurrent de Voyant Tools. Cela permettra à l'utilisateur de se rendre compte quel est le logiciel il vaut mieux utilisé pour tel ou tel outil d'analyse. Les deux étant complémentaires.
Nettoyage du texte
La première étape a consisté a nettoyé le texte afin d'obtenir uniquement le contenu du livre. Pour cela, son titre, ses chapitres et son contenu ont été retenus pour l'analyse. Voyant Tools n'étant pas un outils très puissant pour analyser seulement des parties de texte.
Début de l'analyse
Premièrement, il faut accéder au site Voyant Tools via cette URL : http://voyeurtools.org/ On upload le ou les texte(s) et on clique sur "reveal" afin de lancer l'analyse du texte.
Une fois que cela est fait, on arrive sur l'interface générale. On va d'abord s'intéresser à l'outil "Cirrus". Avant de commencer l'analyse, sélectionner la "Stop Words List" dans les paramètres de l'outil (voir image). Afin de retirer les mots qui ne sont pas pertinents pour l'analyse comme "le, la, un, des, etc.".