« Voyant Tools » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
 
(8 versions intermédiaires par le même utilisateur non affichées)
Ligne 34 : Ligne 34 :


=== A qui s'adresse-t-il? ===
=== A qui s'adresse-t-il? ===
Il est très simple d'utilisation, il s'adresse donc autant aux chercheurs qu'aux étudiants ou aux personnes intéressés à faire de l'analyse de texte.
Il est très simple d'utilisation, il s'adresse donc autant aux chercheurs qu'aux étudiants ou aux personnes intéressées à faire de l'analyse de texte.


=== Formats ===  
=== Formats ===  
Ligne 161 : Ligne 161 :


=== Introduction ===
=== Introduction ===
Le but de ce tutoriel, est d'expliquer comment utiliser Voyant Tools en faisant une petite analyse sur le livre "Candide ou l'Optimisme", un texte de Voltaire très connu dans la littérature française. Ce livre est disponible gratuitement et légalement sur ce [http://lirenligne.net/livre/%20VOLTAIRE/Candide/685 site]. Cela permettra de mieux contextualiser l'utilisation des principaux outils présents sur l'interface générale et quels types d'informations on peut en déduire. Le choix a été de faire l'analyse sur un corpus constitué des chapitres du livre.
Le but de ce tutoriel, est d'expliquer comment utiliser Voyant Tools en faisant une petite analyse sur le livre "Candide ou l'Optimisme", un texte de Voltaire très connu dans la littérature française. Ce livre est disponible gratuitement et légalement sur ce [http://lirenligne.net/livre/%20VOLTAIRE/Candide/685 site]. Cela permettra de mieux contextualiser l'utilisation des principaux outils présents sur l'interface générale et quels types d'informations on peut en déduire. Le choix a été de faire l'analyse sur un corpus constitué des chapitres du livre. Tous les éléments sorties de l'analyses sont basé sur les outils de Voyant Tools et non pas sur la lecture de l'oeuvre!


Cette analyse sera aussi effectuée dans le tutoriel de [[Taporware|Taporware 2.0]] par [[Utilisateur:Garretv0|Victor G.]]. Taporware 2.0 est un concurrent de Voyant Tools qui permet aussi de faire des analyses de textes. Cela permettra à l'utilisateur de pouvoir comparer ces deux outils et de regarder les avantages et désavantages des deux afin qu'ils puissent choisir celui qui répond le mieux à ses besoins. Les deux étant complémentaires au niveau de certaines fonctionnalités.
Cette analyse sera aussi effectuée dans le tutoriel de [[Taporware|Taporware 2.0]] par [[Utilisateur:Garretv0|Victor G.]]. Taporware 2.0 est un concurrent de Voyant Tools qui permet aussi de faire des analyses de textes. Cela permettra à l'utilisateur de pouvoir comparer ces deux outils et de regarder les avantages et désavantages des deux afin qu'ils puissent choisir celui qui répond le mieux à ses besoins. Les deux étant complémentaires au niveau de certaines fonctionnalités.
Ligne 168 : Ligne 168 :
Pour la première analyse qui avait été effectuée pour ce tutoriel, l'ensemble du livre au format PDF avait été converti au format DOC (format de Microsoft Word). Malheureusement le format DOC semble être mal interprété par Voyant Tools au niveau des occurrences de mots. En discutant avec Victor G., il s'est avéré que Voyant Tools détecte plus d'occurrences qu'il y en a vraiment, ce qui peut être problématique pour une analyse sérieuse. Le format XML est mieux géré par Voyant Tools, les résultats semblent être plus proches de la réalité au niveau des occurrences malgré le fait que certaines différences subsistent entre Taporware 2.0 et Voyant Tools. Mais comme Voyant Tools ne permet pas l'exploitation des balises XML, l'analyse a donc été refaite et le format TXT a cette fois été utilisé pour réaliser ce tutoriel afin de limiter au maximum les erreurs liées au format. Nous vous recommandons d'ailleurs d'utiliser le format TXT pour réaliser vos propres analyses.  
Pour la première analyse qui avait été effectuée pour ce tutoriel, l'ensemble du livre au format PDF avait été converti au format DOC (format de Microsoft Word). Malheureusement le format DOC semble être mal interprété par Voyant Tools au niveau des occurrences de mots. En discutant avec Victor G., il s'est avéré que Voyant Tools détecte plus d'occurrences qu'il y en a vraiment, ce qui peut être problématique pour une analyse sérieuse. Le format XML est mieux géré par Voyant Tools, les résultats semblent être plus proches de la réalité au niveau des occurrences malgré le fait que certaines différences subsistent entre Taporware 2.0 et Voyant Tools. Mais comme Voyant Tools ne permet pas l'exploitation des balises XML, l'analyse a donc été refaite et le format TXT a cette fois été utilisé pour réaliser ce tutoriel afin de limiter au maximum les erreurs liées au format. Nous vous recommandons d'ailleurs d'utiliser le format TXT pour réaliser vos propres analyses.  


Si vous voulez comparer les formats DOC et XML du texte entier (non découpé et non utilisé pour l'analyse) dans Voyant Tools, vous pouvez y accéder via ces liens :  
Si vous voulez comparer les formats DOC et XML du texte entier (non découpé et non utilisé pour l'analyse) avec le corpus des chapitres au format TXT (utilisé dans ce tutoriel) dans Voyant Tools, vous pouvez y accéder via ces liens :  
* Texte au format XML : http://voyeurtools.org/?corpus=1418821858227.2267&stopList=stop.fr.veronis.txt (merci à Victor G. pour son fichier XML)
* Texte au format XML : http://voyeurtools.org/?corpus=1418821858227.2267&stopList=stop.fr.veronis.txt (merci à Victor G. pour son fichier XML)
* Texte au format DOC : http://voyeurtools.org/?corpus=1418734568523.3437&stopList=stop.fr.veronis.txt
* Texte au format DOC : http://voyeurtools.org/?corpus=1418734568523.3437&stopList=stop.fr.veronis.txt
* Corpus des 30 chapitres (formant le texte) au format TXT : http://voyeurtools.org/tool/Links/?corpus=1418935602503.3105&stopList=stop.fr.veronis.txt


=== Nettoyage du texte ===
=== Nettoyage du texte ===
La première étape a consisté à nettoyer le texte une fois mis au format TXT afin d'obtenir uniquement le contenu du livre. Pour cela, uniquement son titre, ses chapitres et son contenu ont été retenus pour l'analyse et le reste a été mis de coté. Cela a été fait dans le but de faciliter l'analyse. La première analyse qui avait été faite pour ce tutoriel au format DOC et qui portait uniquement sur le texte entier (sans corpus) donnait des résultats bizarres. C'est pourquoi, dans la deuxième analyse qui est présenté dans ce tutoriel, le texte a été découpé par chapitre, c'est à dire en 30 fichiers TXT, c'est à dire un chapitre par fichier TXT afin de former un corpus de chapitre. En effet, il a été constaté que Voyant Tools n'est pas un très bon outil pour analyser seulement des parties spécifiques d'un seul texte. Celui-ci semble être plus adapté à analyser un corpus de plusieurs textes. Il est tout de même étonnant que Voyant Tools contrairement à Taporware ne permette pas pour un unique texte d'analyser chapitre par chapitre, même en utilisant le format XML et ses balises! Il propose uniquement de découper le texte par segments. Pour analyser chapitre par chapitre, il a donc fallu, comme on l'a dit, découper manuellement chaque chapitre du livre dans un fichier unique.
La première étape a consisté à nettoyer le texte une fois mis au format TXT afin d'obtenir uniquement le contenu du livre. Pour cela, uniquement son titre, ses chapitres et son contenu ont été retenus pour l'analyse et le reste a été mis de coté. Cela a été fait dans le but de faciliter l'analyse. La première analyse qui avait été faite pour ce tutoriel au format DOC et qui portait uniquement sur le texte entier (sans corpus) donnait des résultats bizarres. C'est pourquoi, dans la deuxième analyse qui est présenté dans ce tutoriel, le texte a été découpé par chapitre, c'est à dire en 30 fichiers TXT, c'est à dire un chapitre par fichier TXT afin de former un corpus de chapitres. En effet, il a été constaté que Voyant Tools n'est pas un très bon outil pour analyser seulement des parties spécifiques d'un seul texte. Celui-ci semble être plus adapté à analyser un corpus de plusieurs textes. Il est tout de même étonnant que Voyant Tools contrairement à Taporware ne permette pas pour un unique texte d'analyser chapitre par chapitre, même en utilisant le format XML et ses balises! Il propose uniquement de découper le texte par segments. Pour analyser chapitre par chapitre, il a donc fallu, comme on l'a dit, découper manuellement chaque chapitre du livre dans un fichier unique.


=== L'analyse ===
=== L'analyse ===
Ligne 215 : Ligne 216 :
[[Fichier:VT_Corpus_Reader.png|500px|thumb|left|outil Reader (cliquez sur l'image pour l'agrandir)]]
[[Fichier:VT_Corpus_Reader.png|500px|thumb|left|outil Reader (cliquez sur l'image pour l'agrandir)]]
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
L'outil reader ne permet pas vraiment de faire des analyses puisqu'il permet juste de donner un aperçu des textes du corpus. On peut en revanche voir les mots sélectionner via les autres outils en jaune à l'intérieur du texte et aussi en sélectionner directement depuis cet outil. A noter toutefois, que cet outil ne semble pas fonctionner avec les fichiers au format DOC.  
L'outil reader ne permet pas vraiment de faire des analyses puisqu'il permet juste de donner un aperçu des textes du corpus. On peut en revanche voir les mots sélectionnés via les autres outils à l'intérieur du texte (affichés en jaune) et aussi en sélectionner directement depuis cet outil. A noter toutefois, que cet outil ne semble pas fonctionner avec les fichiers au format DOC.


==== Analyse avec Corpus Term Frequencies ====
==== Analyse avec Corpus Term Frequencies ====
Ligne 241 : Ligne 242 :
[[Fichier:VT_Corpus_Word_in_Document.png|500px|thumb|left|outil Words in Documents (cliquez sur l'image pour l'agrandir)]]
[[Fichier:VT_Corpus_Word_in_Document.png|500px|thumb|left|outil Words in Documents (cliquez sur l'image pour l'agrandir)]]
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
Grâce à cet outil, on peut voir le nombre d'occurrence et la fréquence relative d'un ou plusieurs mots dans les différents textes du corpus mais aussi leur répartition dans un texte du corpus avec la colonne "Tend" (dans notre cas les textes sont des chapitres du livre). Cet outil peut être intéressant pour avoir une vision plus précise de l'apparition d'un ou plusieurs mots dans les différents documents qui composent le corpus.
Grâce à cet outil, on peut voir le nombre d'occurrence et la fréquence relative d'un ou plusieurs mots dans les différents textes du corpus mais aussi leur répartition dans un texte du corpus avec la colonne "Tend" (dans notre cas les textes sont des chapitres du livre). Cet outil peut être intéressant pour avoir une vision plus précise de l'apparition d'un ou plusieurs mots dans les différents documents qui composent le corpus. On voit par exemple sur notre image que le mot "candide" que nous avons sélectionné est présent 60 fois dans le chapitre 22. Alors qu'il n'est présent que 23 fois dans le chapitre 19 qui est le chapitre où "candide" est le plus cité après le chapitre 22.


==== Lien vers voyant tools (outils + corpus analysé) ====
==== Lien vers voyant tools (outils + corpus analysé) ====
Ligne 252 : Ligne 253 :
=====  Analyse avec Links =====
=====  Analyse avec Links =====
Pour l'utilisation de l'outil links, nous avons utilisé ce lien : http://hermeneuti.ca/voyeur/tools/Links
Pour l'utilisation de l'outil links, nous avons utilisé ce lien : http://hermeneuti.ca/voyeur/tools/Links
Nous avons donc ré-uploadé le texte sur la page de l'outil.
Nous avons donc ré-uploadé le corpus des chapitres via la page de l'outil.
[[Fichier:VT_Corpus_Links.png|500px|thumb|left|outil Links (cliquez sur l'image pour l'agrandir)]]
[[Fichier:VT_Corpus_Links.png|500px|thumb|left|outil Links (cliquez sur l'image pour l'agrandir)]]
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
<br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br /><br />
Grâce à links, on peut visualiser la fréquence des mots et leurs proximités. On voit ici que Candide est le personnage le plus important car le plus cité (il est en gras). Il est en lien avec les autres personnages présents dans cette visualisation. Il semble être très proche de martin, on peut supposer qu'il doit surement être un bon ami à lui dans le récit. Cunégonde est aussi en lien avec lui, ce qui signifie qu'elle doit être très proche de Candide dans le récit. Elle est notamment reliée au mot veille, donc on peut supposer qu'elle est veille ou qu'elle est en contact avec une veille dame. Le mot gouverneur qui est lié à elle, peut laisser entendre qu'elle est mariée à un gouverneur ou qu'elle est l'esclave d'un gouverneur c'est une hypothèse qu'il faudrait creuser. Pangloss semble aussi lié à Candide mais de façon plus distante ce qui signifie qu'il ne doit pas être présent à ses cotés pendant tout le récit ou qu'il a une place moins importante auprès de Candide par rapport à Martin et Cunégonde, d'ailleurs Pangloss est relié au mot "disait", qui est le verbe dire à l'imparfait ce qui semble confirmer cette hypothèse contrairement à martin qui est relié au mot "dit" qui est le verbe dire au présent. Il est aussi relié au terme milieu, ce qui semble confirmer notre hypothèse. Candide quant à lui est rattaché au terme de bon et baron, il est donc sûrement lié d'une manière ou d'une autre à un baron et il semble être une bonne personne, cela vient renforcer notre hypothèse réalisée à partir de l'outils Cirrus, qui semblait mettre en avant le fait qu'il y a la présence d'un rapport de force entre les différents personnages et aussi qu'il est question du bien et du mal.  
Grâce à links, on peut visualiser la fréquence des mots et leurs proximités. On voit ici que Candide est le personnage le plus important car le plus cité (il est en gras). Il est en lien avec les autres personnages présents dans cette visualisation. Il semble être très proche de martin, on peut supposer qu'il doit surement être un bon ami à lui dans le récit. Cunégonde est aussi en lien avec lui, ce qui signifie qu'elle doit être très proche de Candide dans le récit. Elle est notamment reliée au mot veille, donc on peut supposer qu'elle est veille ou qu'elle est en contact avec une veille dame. Le mot gouverneur qui est lié à elle, peut laisser entendre qu'elle est mariée à un gouverneur ou qu'elle est l'esclave d'un gouverneur c'est une hypothèse qu'il faudrait creuser. Pangloss semble aussi lié à Candide mais de façon plus distante ce qui signifie qu'il ne doit pas être présent à ses cotés pendant tout le récit ou qu'il a une place moins importante auprès de Candide par rapport à Martin et Cunégonde, d'ailleurs Pangloss est relié au mot "disait", qui est le verbe dire à l'imparfait ce qui semble confirmer cette hypothèse contrairement à martin qui est relié au mot "dit" qui est le verbe dire au présent. Il est aussi relié au terme milieu, ce qui semble confirmer notre hypothèse. Candide quant à lui est rattaché au terme de bon et baron, il est donc sûrement lié d'une manière ou d'une autre à un baron et il semble être une bonne personne, cela vient renforcer notre hypothèse réalisée à partir de l'outils Cirrus, qui semblait mettre en avant le fait qu'il y a la présence d'un rapport de force entre les différents personnages et aussi qu'il est question du bien et du mal.


===== Lien vers l'outil avec ce corpus =====
===== Lien vers l'outil avec ce corpus =====
Ligne 268 : Ligne 269 :


==== Points faibles ====
==== Points faibles ====
Certains formats comme le DOC semble n'être pas très bien pris en charge, par exemple au niveau du nombre d'occurrence et sont donc à éviter. Le DOC ne semble pas non plus bien fonctionner avec l'outil reader qui permet de visualiser le texte analysé. Ces deux points semblent être moins problématique avec le XML bien que certaines différences au niveau des occurrences des mots semblent encore exister avec Taporware 2.0. Certains outils en ligne sont assez instables et ne sont pas forcément disponible tout le temps. En effet, le serveur du site n'était parfois pas accessible lors de la réalisation de ce tutoriel. Il y a aussi certains bugs au niveau des outils qui se chargent parfois mal. Voyant Tools n'est pas à recommander lorsque l'on analyse un unique texte et si on veut faire des analyses poussées.
Certains formats comme le DOC ne semblent être pas très bien pris en charge, par exemple au niveau du nombre d'occurrence et sont donc à éviter. Le DOC ne semble pas non plus bien fonctionner avec l'outil reader qui permet de visualiser le texte analysé. Ces deux points semblent être moins problématique avec le XML bien que certaines différences au niveau des occurrences des mots semblent encore exister avec Taporware 2.0. Certains outils en ligne sont assez instables et ne sont pas forcément disponible tout le temps. En effet, le serveur du site n'était parfois pas accessible lors de la réalisation de ce tutoriel. Il y a aussi certains bugs au niveau des outils qui se chargent parfois mal. Voyant Tools n'est pas à recommander lorsque l'on analyse un unique texte et si on veut faire des analyses poussées.


== Références ==
== Références ==

Dernière version du 29 janvier 2015 à 10:19

Analytique et exploration de données
Module: Outils text mining
à améliorer débutant
2015/01/29 ⚒⚒ 2014/11/19
Voir aussi
Catégorie: Outils text mining

Indroduction

logo de Voyant Tools

Voyant Tools appelé aussi Voyeur est un environnement d'analyse de texte en ligne. Son interface est faîte pour être facilement utilisée tout en étant flexible et puissante. Il fait parti d'Hermeneuti.ca, un projet collaboratif qui a pour but de développer des outils d'analyse de texte. En novembre 2014, il était toujours en phase beta car certaines fonctionnalités n'ont pas encore été intégrées.

Présentation

Qu'est Voyant Tools permet de faire?

Cet outil d'analyse de texte permet d'apprendre comment fonctionne l'analyse assistée par ordinateur. Il permet d'analyser des textes trouvés sur le web ou des textes contenus sur notre ordinateur, pour cela, il met à disposition de nombreux outils qui permettent d'analyser de plusieurs manières les textes. Grâce à lui, on peut aussi enrichir les pages web grâce à l'exportation de certaines fonctionnalités permettant d'ajouter des blocs interactifs qu'on peut facilement incruster dans les pages web. Il offre la possibilité de créer nos propres outils en utilisant leur code. Il est important de noter que Voyant Tools ne conserve pas les textes analysés dans une base de donnée, ce qui pourrait poser des problèmes de confidentialité.

Principes de conception

Ci-dessous, les différents points sur lesquels Voyant Tools est basé concernant sa conception :

  • Modularité : les outils doivent être capables de s'adapter les uns avec les autres au sein de différentes configurations.
  • Généralisation : les outils doivent être conçus pour répondre à plusieurs types de texte et à plusieurs types d'utilisations.
  • Sensibilité de domaine : les outils doivent être sensibles à la façon dont les chercheurs travaillent et de la manière qu'ils interagissent avec des textes numériques.
  • Flexibilité : les outils doivent être en mesure de travailler avec des ressources hébergées en local ou en ligne et qui peuvent être de formats différents.
  • Internationalisation : les outils doivent permettre aux utilisateurs de travailler avec différentes langues.
  • Performances : les outils doivent être performants sachant que c'est un environnement virtuel.
  • Extensibilité : Pouvoir facilement créer de nouveaux outils et les adapter à ceux existants.
  • Interopérabilité: les outils doivent fournir des API publiques afin qu'elles puissent interagir avec d'autres composants sur le web.
  • Adaptation du thème graphique: les outils doivent de pouvoir être personnalisés afin de respecter les préférences des différents utilisateurs.
  • Evolutivité: les outils doivent fournir des fonctionnalités pour de petits ou grands corpus.
  • Simplicité: L'interface des outils doit être facile d'utilisation.
  • Référençabilité : les outils et leurs résultats devraient pouvoir être référencés et cités comme des ressources académiques.

A qui s'adresse-t-il?

Il est très simple d'utilisation, il s'adresse donc autant aux chercheurs qu'aux étudiants ou aux personnes intéressées à faire de l'analyse de texte.

Formats

Les différents types de format proposés pour l'importation et l'exportation. Comme il est toujours en beta, cela est susceptible d'évoluer.

  • Format d'importation : HTML, TXT, XML, PDF, DOC
  • Format d'exportation : CSV, TXT, XML

Prix

Il est gratuit!

Caractéristiques clés de Voyant Tools

  • Utiliser des textes venant de nombreux formats (HTML, XML, PDF, RTF et doc)
  • Utiliser des textes venant d'URL ou de fichiers uploadés
  • Faire des analyses lexicales, y compris l'étude de fréquence et de distribution des données
  • exporter des données vers d'autres outils (XML, etc.)
  • Intégrer des fonctionnalités de Voyeur sur des sites web

Outils proposés par Voyant Tools

Voyant Tools propose différents outils concernant l'analyse de texte. Pour plus de détails (en anglais) concernant les fonctions de l'outil, cliquez dessus.
Certains outils comme Lava ou Term Fountain, nécessitent une version trop ancienne de java et ne semblent plus fonctionner.

Outils triés par ordre alphabétique

Bubblelines

  • Bubblelines : outil de visualisation des répétitions des mots dans un ou plusieurs documents.

VT bubblelines2.png

Bubbles

  • Bubbles : outil illustrant la fréquence des mots grâce à des bulles plus ou moins grosses.

(image du site officiel de la version beta de l'outil)
VT bubble.png

Cirrus

  • Cirrus : outil permettant d'illustrer la fréquence des mots d'un ou plusieurs textes dans un nuage de mot.

(image du site officiel de la version beta de l'outil)
VT cirrus.png

Corpus Grid

  • Corpus Grid : outil présentant de façon générale le corpus sous forme de table.

(image du site officiel de la version beta de l'outil)
VT corpusgrid.png

Corpus Summary

  • Corpus Summary : outil permettant d'avoir une vue d'ensemble, de forme textuelle, du corpus actuel.

(image du site officiel de la version beta de l'outil)
VT corpussummary.png

Corpus Term Frequencies

  • Corpus Term Frequencies : outil montrant une table de la fréquence et de la répartition des mots dans un corpus entier.

(image du site officiel de la version beta de l'outil)
VT corpustermfrequencies.png

Collocate Term Frequencies

  • Collocate Term Frequencies : outil présentant sous forme de table la fréquence des mots autour d'un mot clé. (ne semble pas disponible)

Document Term Frequencies

Document KWICs

  • Document KWICs : outils illustrant une table de mots-clés avec leur contexte.

(image du site officiel de la version beta de l'outil)
VT documentkwics.png

Entities Browser

  • Entities Browser : visualisation d'entités nommées. (ne semble pas disponible)

Knots

  • Knots : outil de visualisation qui aide à comprendre la pertinence des mots dans un ou plusieurs documents.

(image du site officiel de la version beta de l'outil)
VT knots.png

Lava

  • Lava : outil permettant d'afficher plusieurs niveaux d'un corpus dans un environnement 3D.

(image du site officiel de la version beta de l'outil)
VT lava.png

Links

  • Links : outils permettant de visualiser la fréquence des mots et leur proximité.

(image du site officiel de la version beta de l'outil)
VT links.png

Mandala

  • Mandala : outil de visualisation qui importe les fichiers textuels pour effectuer des analyses sur la fréquence et la liaison des mots.

(image du site officiel de la version beta de l'outil)
VT mandala.png

Reader

  • Reader : outil permettant la lecture de documents dans un corpus.

(image du site officiel de la version beta de l'outil)
VT reader.png

ScatterPlot

  • ScatterPlot : outil permettant la création d'un nuage de points dans un graphe représentant les termes, espacés par leur variation.

(image du site officiel de la version beta de l'outil)
VT scatterplot.png

Term Frequencies Chart

  • Term Frequencies Chart : outil permettant de savoir comment sont répartis les termes par texte dans un corpus grâce à un graphique.

(image du site officiel de la version beta de l'outil)
VT typefrequencieschart.png

Term Fountain

  • Term Fountain : outil permettant de visualiser sous forme de fontaine la fréquence des mots.

(image du site officiel de la version beta de l'outil)
VT termfountain.png

Annexe

Retrouvez l'ensemble des informations sur les outils sur cette page (en).

Développeurs de Voyant Tools

Présentation de l'interface générale (beta)

Interface d'accueil

Nous avons l'interface d'accueil lorsque nous arrivons sur le site.
Voyant interface accueil beta.png

Interface générale

Ensuite, nous avons aussi l'interface générale lorsque le texte a été analysé. Voir explications sur l'image.
Voyant interface generale beta.png

Tutoriel (analyse d'un corpus)

Introduction

Le but de ce tutoriel, est d'expliquer comment utiliser Voyant Tools en faisant une petite analyse sur le livre "Candide ou l'Optimisme", un texte de Voltaire très connu dans la littérature française. Ce livre est disponible gratuitement et légalement sur ce site. Cela permettra de mieux contextualiser l'utilisation des principaux outils présents sur l'interface générale et quels types d'informations on peut en déduire. Le choix a été de faire l'analyse sur un corpus constitué des chapitres du livre. Tous les éléments sorties de l'analyses sont basé sur les outils de Voyant Tools et non pas sur la lecture de l'oeuvre!

Cette analyse sera aussi effectuée dans le tutoriel de Taporware 2.0 par Victor G.. Taporware 2.0 est un concurrent de Voyant Tools qui permet aussi de faire des analyses de textes. Cela permettra à l'utilisateur de pouvoir comparer ces deux outils et de regarder les avantages et désavantages des deux afin qu'ils puissent choisir celui qui répond le mieux à ses besoins. Les deux étant complémentaires au niveau de certaines fonctionnalités.

Formats utilisés

Pour la première analyse qui avait été effectuée pour ce tutoriel, l'ensemble du livre au format PDF avait été converti au format DOC (format de Microsoft Word). Malheureusement le format DOC semble être mal interprété par Voyant Tools au niveau des occurrences de mots. En discutant avec Victor G., il s'est avéré que Voyant Tools détecte plus d'occurrences qu'il y en a vraiment, ce qui peut être problématique pour une analyse sérieuse. Le format XML est mieux géré par Voyant Tools, les résultats semblent être plus proches de la réalité au niveau des occurrences malgré le fait que certaines différences subsistent entre Taporware 2.0 et Voyant Tools. Mais comme Voyant Tools ne permet pas l'exploitation des balises XML, l'analyse a donc été refaite et le format TXT a cette fois été utilisé pour réaliser ce tutoriel afin de limiter au maximum les erreurs liées au format. Nous vous recommandons d'ailleurs d'utiliser le format TXT pour réaliser vos propres analyses.

Si vous voulez comparer les formats DOC et XML du texte entier (non découpé et non utilisé pour l'analyse) avec le corpus des chapitres au format TXT (utilisé dans ce tutoriel) dans Voyant Tools, vous pouvez y accéder via ces liens :

Nettoyage du texte

La première étape a consisté à nettoyer le texte une fois mis au format TXT afin d'obtenir uniquement le contenu du livre. Pour cela, uniquement son titre, ses chapitres et son contenu ont été retenus pour l'analyse et le reste a été mis de coté. Cela a été fait dans le but de faciliter l'analyse. La première analyse qui avait été faite pour ce tutoriel au format DOC et qui portait uniquement sur le texte entier (sans corpus) donnait des résultats bizarres. C'est pourquoi, dans la deuxième analyse qui est présenté dans ce tutoriel, le texte a été découpé par chapitre, c'est à dire en 30 fichiers TXT, c'est à dire un chapitre par fichier TXT afin de former un corpus de chapitres. En effet, il a été constaté que Voyant Tools n'est pas un très bon outil pour analyser seulement des parties spécifiques d'un seul texte. Celui-ci semble être plus adapté à analyser un corpus de plusieurs textes. Il est tout de même étonnant que Voyant Tools contrairement à Taporware ne permette pas pour un unique texte d'analyser chapitre par chapitre, même en utilisant le format XML et ses balises! Il propose uniquement de découper le texte par segments. Pour analyser chapitre par chapitre, il a donc fallu, comme on l'a dit, découper manuellement chaque chapitre du livre dans un fichier unique.

L'analyse

Début de l'analyse

Premièrement, il faut accéder au site Voyant Tools via cette URL : http://voyeurtools.org/ On upload le ou les texte(s) et on clique sur "reveal" afin de lancer l'analyse du corpus de texte. Pour notre analyse, nous avons importer les 30 fichiers TXT dans Voyant Tools. Il est dommage de ne pas pouvoir importer tous les fichiers d'un coup. Il faut sélectionner fichier par fichier.

image qui montre l'importation (cliquez sur l'image pour l'agrandir)




















Une fois que cela est fait, on arrive sur l'interface générale. On va d'abord s'intéresser à l'outil "Cirrus". Avant de commencer l'analyse, sélectionner la "Stop Words List" dans les paramètres de l'outil (voir image). Cela va permettre de retirer les mots qui ne sont pas pertinents pour l'analyse comme "le, la, un, des, etc.". Cette liste est facilement éditable. La même procédure devra être répétée sur chaque outil.

image qui montre l'utilisation de la "Strop Words List" (cliquez sur l'image pour l'agrandir)





















Analyse avec Cirrus

image des résultats obtenus grâce à Cirrus (cliquez sur l'image pour l'agrandir)















Comme on peut le voir sur l'image ci-dessus, cet outil permet de voir les mots qui sont les plus répétés dans le corpus. En passant le curseur sur un mot, on peut avoir son nombre d'occurrence. Sur cette image, on a passé notre curseur sur le nom "Candide" et on voit qu'il s'y trouve 372 fois dans l'ensemble du texte.

Dans le cadre de cette analyse, il est intéressant de relever que les mots les plus cités sont des personnages du livre. On a les mots : "Candide, Cunégonde, Cacambo, Martin, Pangloss" ceux-ci étant cités le plus de fois, on peut penser qu'ils sont les personnages principaux de l'histoire. Candide étant le mot le plus grand dans ce nuage (donc relevé le plus de fois), on peut supposer que c'est le personnage le plus important de l'histoire. Il y a aussi des personnages qui semblent moins importants comme la Veille, le Roi, le Baron qui sont présents dans ce nuage de mot. Du fait de leur petite taille dans le nuage, cela nous indique que ce sont sûrement des personnages secondaires.

Cet outil, nous permet aussi de relever certaines thématiques qui ont l'air de ressortir de cette œuvre, comme la question du bien et du mal ou plutôt des valeurs morales avec des mots comme : "mal, bon, plaisir, mieux" présents dans le nuage. Les mots comme « Venise, pays, vaisseau, ville, terre, monde » ont l'air de nous indiquer qu'il y a aussi la thématique du voyage dans ce roman, récit doit sûrement se dérouler dans différents pays. On peut aussi supposer que l'oeuvre tourne autour de différents concepts s'affrontant au cours du récit avec des mots souvent citées s'opposant fortement comme celui de la vieillesse et de la jeunesse : "veille/belle-beau" et comme déjà dit, celui du bien et du mal avec "bon/mal". On peut aussi émettre l'hypothèse qu'il y a aussi un rapport de force entre les personnages de classe sociale différente avec les mots comme : maître, patron, capitaine, diamants, château. La notion du temps est aussi très présente avec les mots comme "temps, jours". La religion a l'air de faire partie du récit de manière importante car on retrouve dans ce nuage des mots comme : "dieu, jésuite", sûrement que ce thématique est liée à celle du bien et du mal.

L'outil Cirrus nous a permis de faire une petite analyse préliminaire qui semble avoir soulevé plusieurs hypothèses intéressantes. Elles mériteraient d'être creusées.

Il est important de relever que Voyant Tools permet d'exporter et d'intégrer très simplement les outils dans une page web. Voir l'image ci-dessous pour voir comment exporter l'outil cirrus. Cette procédure est la même pour tous les outils.

image de l'exportation de l'outil Cirrus (cliquez sur l'image pour l'agrandir)















Analyse avec Summary

outil Summary qui résume quelques points (cliquez sur l'image pour l'agrandir)

















Cet outil donne une vue intéressante sur notre corpus qui est dans notre analyse composée des 30 chapitres du livre. Il donne : les mots les plus fréquents dans le corpus et les chapitres qui composent le corpus, le nombre de documents dans le corpus, le nombre de mots totals et le nombre de mots uniques dans le corpus et par chapitre qui composent le corpus. Il est aussi intéressant car il nous indique que le chapitre 22 est le plus long et que celui avec la plus grande densité de vocabulaire est le chapitre 6. On peut notamment très vite se rendre compte de la thématique de chaque chapitre. Par exemple, pour le chapitre 1, lorsque l'on regarde les mots qui sont les plus fréquents dans le chapitre (ceux-ci s'affichant dans l'outil cirrus lorsque l'on clique sur "More..."), on voit que le début du récit a l'air de se dérouler dans le château d'un baron se trouvant en Westphalie, Cunéguonde semble jeune, Candide semble beau. Les deux semblent innocents et timides, on peut donc penser qu'il y a un sentiment amoureux entre eux.

Analyse avec Reader

outil Reader (cliquez sur l'image pour l'agrandir)





























L'outil reader ne permet pas vraiment de faire des analyses puisqu'il permet juste de donner un aperçu des textes du corpus. On peut en revanche voir les mots sélectionnés via les autres outils à l'intérieur du texte (affichés en jaune) et aussi en sélectionner directement depuis cet outil. A noter toutefois, que cet outil ne semble pas fonctionner avec les fichiers au format DOC.

Analyse avec Corpus Term Frequencies

outil Corpus Term Frequencies (cliquez sur l'image pour l'agrandir)














Dans la suite de cette petite analyse menée dans le cadre de ce tutoriel, nous allons brièvement nous intéresser à la fréquence d'apparition des personnages grâces à l'outil "Word Trends" (voir outil suivant) disponible dans l'interface de Voyant Tools. Grâce à l'outil Corpus Term Frequencies, on peut sélectionner les mots que l'on veut traiter dans l'outil Word Trends. Nous sélections le nom des personnages qui semblent être principaux. On peut voir sur l'image ci-dessus que l'occurrence de ces mots ainsi que leur répartition dans le corpus sont aussi mentionnées.

Analyse avec Word Trends

outil Word Trends (cliquez sur l'image pour l'agrandir)



































Une fois les noms des personnages sélectionnés dans l'outil Corpus Term Frequencies vu précédemment, ceux-ci s'affichent sous forme de graphique dans l'outil "Word Trends" dont l'axe vertical représente la fréquence relative des mots et l'horizontal représente les textes du corpus (dans notre cas les chapitres). Lorsque l'on analyse un seul texte (et non un corpus), on peut diviser l'axe horizontal en segments que l'on peut nous même définir. Grâce à ce graphique, on va pouvoir tirer des informations pertinentes concernant les personnages principaux au cours du roman.

On voit que dans le premier chapitre, on a la présence de Candide et Cunégonde, deux personnages qui semblent très liés au cours du récit car leurs fréquences d'apparition semblent liées au vue des courbes dans ce graphique (voir les cadres jaunes). Dans ce premier chapitre, il y a aussi la présence la présence de Pangloss qui semble jouer un rôle assez important au début du récit mais de moins en moins par la suite, on peut donc penser qu'il se sépare de Candide pendant l'histoire, jusqu'à revenir de manière plus importante dans les derniers chapitres. Cunégonde semble aussi très présente par moment dans l'histoire et parfois presque pas comme par exemple dans les chapitres 4 , 7, 16 et 24. Candide semble le personnage le plus important car sur quasiment l'ensemble des chapitres c'est le nom qui semble le plus fréquent. On remarque dans le chapitre 11 une anomalie, en effet, aucun des personnages principaux semblent y être présents, ce qui voudrait dire que c'est un chapitre externe à l'histoire principale qui ne la concerne qu'indirectement. Dans le chapitre 12, on a l'apparition de Cacambo pour la première fois dans le récit qui doit avoir croisé la route de Candide et qui semble l'accompagner pour le reste de l'histoire. A partir du chapitre 18, un nouveau personnage qui se nomme Martin apparait dans le récit et il a l'air de prendre plus d'importance que Cacambo. Celui-ci semble très lié à Candide au vue des courbes qui tende à se joindre. Il est aussi important de relevé que dans les chapitres suivantes les autres personnages principaux soient un peu en retrait de l'histoire au vue de leur fréquence d'apparition. Dans le dernier chapitre, tous les personnages ont l'air d'être présent de manière équilibré car leurs courbes se rejoignent, on peut donc pensé à une fin plutôt heureuse.

Analyse avec Keywords in Context

outil Keywords in Context (cliquez sur l'image pour l'agrandir)













Grâce à cet outil, on peut voir les mots sélectionner dans leur contexte selon un texte du corpus sélectionné. Sur l'image, on a sélectionné le mot "Candide" dans le chapitre 1 et on peut le voir dans les différents contextes où il est présent dans le chapitre. Cela peut par exemple se révéler très utile pour obtenir rapidement des informations sur un ou plusieurs personnages.

Analyse avec Words in Documents

outil Words in Documents (cliquez sur l'image pour l'agrandir)















Grâce à cet outil, on peut voir le nombre d'occurrence et la fréquence relative d'un ou plusieurs mots dans les différents textes du corpus mais aussi leur répartition dans un texte du corpus avec la colonne "Tend" (dans notre cas les textes sont des chapitres du livre). Cet outil peut être intéressant pour avoir une vision plus précise de l'apparition d'un ou plusieurs mots dans les différents documents qui composent le corpus. On voit par exemple sur notre image que le mot "candide" que nous avons sélectionné est présent 60 fois dans le chapitre 22. Alors qu'il n'est présent que 23 fois dans le chapitre 19 qui est le chapitre où "candide" est le plus cité après le chapitre 22.

Lien vers voyant tools (outils + corpus analysé)

L'interface générale et ses outils avec le corpus des chapitres de ce livre sont disponibles dans Voyant Tools à cette adresse : http://voyant-tools.org/?corpus=1418933183513.7743&stopList=stop.fr.veronis.txt

Analyse avec un outil externe à l'interface générale

Nous avons présenté, l'ensemble des outils présents sur l'interface de base de Voyant Tools. Mais le site permet d'utiliser d'autres outils via des liens externes (voir présentation des outils). Nous allons donc compléter notre analyse de base par l'utilisation d'un de ces outils externes qui se nomme "links" proposé par Voyant Tools.

Analyse avec Links

Pour l'utilisation de l'outil links, nous avons utilisé ce lien : http://hermeneuti.ca/voyeur/tools/Links Nous avons donc ré-uploadé le corpus des chapitres via la page de l'outil.

outil Links (cliquez sur l'image pour l'agrandir)


























Grâce à links, on peut visualiser la fréquence des mots et leurs proximités. On voit ici que Candide est le personnage le plus important car le plus cité (il est en gras). Il est en lien avec les autres personnages présents dans cette visualisation. Il semble être très proche de martin, on peut supposer qu'il doit surement être un bon ami à lui dans le récit. Cunégonde est aussi en lien avec lui, ce qui signifie qu'elle doit être très proche de Candide dans le récit. Elle est notamment reliée au mot veille, donc on peut supposer qu'elle est veille ou qu'elle est en contact avec une veille dame. Le mot gouverneur qui est lié à elle, peut laisser entendre qu'elle est mariée à un gouverneur ou qu'elle est l'esclave d'un gouverneur c'est une hypothèse qu'il faudrait creuser. Pangloss semble aussi lié à Candide mais de façon plus distante ce qui signifie qu'il ne doit pas être présent à ses cotés pendant tout le récit ou qu'il a une place moins importante auprès de Candide par rapport à Martin et Cunégonde, d'ailleurs Pangloss est relié au mot "disait", qui est le verbe dire à l'imparfait ce qui semble confirmer cette hypothèse contrairement à martin qui est relié au mot "dit" qui est le verbe dire au présent. Il est aussi relié au terme milieu, ce qui semble confirmer notre hypothèse. Candide quant à lui est rattaché au terme de bon et baron, il est donc sûrement lié d'une manière ou d'une autre à un baron et il semble être une bonne personne, cela vient renforcer notre hypothèse réalisée à partir de l'outils Cirrus, qui semblait mettre en avant le fait qu'il y a la présence d'un rapport de force entre les différents personnages et aussi qu'il est question du bien et du mal.

Lien vers l'outil avec ce corpus

L'outil avec ce corpus est disponible dans Voyant Tools à cette adresse : http://voyeurtools.org/tool/Links/?corpus=1418935602503.3105&stopList=stop.fr.veronis.txt

Remarques générales concernant Voyant Tools

Grâce à cette analyse préliminaire basée sur Voyant Tools, on a pu formuler de premières hypothèses intéressantes concernant ce livre. Voyant Tools est un outils intéressant pour faire rapidement des analyses de façon simple mais je pense que pour des recherches sérieuses ou plus poussées, il vaut mieux se baser sur un logiciel plus puissant et fiable. Cette analyse réalisée dans le cadre de ce tutoriel nous a permis de constater les points forts et les points faibles de ce site. Nous allons donc séparer les points positifs des points négatifs. Cela permettra aux utilisateurs lisant ce tutoriel de savoir quel sont ces avantages et ses désavantages lorsqu'ils utilisent cet outil.

Points forts

Il accepte de nombreux formats (en ligne ou en local) et les accents sont bien reconnus. Il est très simple d'utilisation grâce à une interface ergonomique et aussi grâce à une "stop words list" déjà incluse. Il a de nombreux outils intéressants qui sont facilement exportables et intégrables aux sites Web. Il semble bien adapté à l'analyse de Corpus et permet de faire des premières analyses de façon très simple.

Points faibles

Certains formats comme le DOC ne semblent être pas très bien pris en charge, par exemple au niveau du nombre d'occurrence et sont donc à éviter. Le DOC ne semble pas non plus bien fonctionner avec l'outil reader qui permet de visualiser le texte analysé. Ces deux points semblent être moins problématique avec le XML bien que certaines différences au niveau des occurrences des mots semblent encore exister avec Taporware 2.0. Certains outils en ligne sont assez instables et ne sont pas forcément disponible tout le temps. En effet, le serveur du site n'était parfois pas accessible lors de la réalisation de ce tutoriel. Il y a aussi certains bugs au niveau des outils qui se chargent parfois mal. Voyant Tools n'est pas à recommander lorsque l'on analyse un unique texte et si on veut faire des analyses poussées.

Références