Voyant Tools
Analytique et exploration de données | |
---|---|
Module: Outils text mining | |
⚐ à améliorer | ☸ débutant |
⚒ 2014/12/18 | ⚒⚒ 2014/11/19 |
Voir aussi | |
Indroduction
Voyant Tools appelé aussi Voyeur est un environnement d'analyse de texte en ligne. Son interface est faîte pour être facilement utilisée tout en étant flexible et puissante. Il fait parti d'Hermeneuti.ca, un projet collaboratif qui a pour but de développer des outils d'analyse de texte. En novembre 2014, il était toujours en phase beta car certaines fonctionnalités n'ont pas encore été intégrées.
Présentation
Qu'est Voyant Tools permet de faire?
Cet outil d'analyse de texte permet d'apprendre comment fonctionne l'analyse assistée par ordinateur. Il permet d'analyser des textes trouvés sur le web ou des textes contenus sur notre ordinateur, pour cela, il met à disposition de nombreux outils qui permettent d'analyser de plusieurs manières les textes. Grâce à lui, on peut aussi enrichir les pages web grâce à l'exportation de certaines fonctionnalités permettant d'ajouter des blocs interactifs qu'on peut facilement incruster dans les pages web. Il offre la possibilité de créer nos propres outils en utilisant leur code. Il est important de noter que Voyant Tools ne conserve pas les textes analysés dans une base de donnée, ce qui pourrait poser des problèmes de confidentialité.
Principes de conception
Ci-dessous, les différents points sur lesquels Voyant Tools est basé concernant sa conception :
- Modularité : les outils doivent être capables de s'adapter les uns avec les autres au sein de différentes configurations.
- Généralisation : les outils doivent être conçus pour répondre à plusieurs types de texte et à plusieurs types d'utilisations.
- Sensibilité de domaine : les outils doivent être sensibles à la façon dont les chercheurs travaillent et de la manière qu'ils interagissent avec des textes numériques.
- Flexibilité : les outils doivent être en mesure de travailler avec des ressources hébergées en local ou en ligne et qui peuvent être de formats différents.
- Internationalisation : les outils doivent permettre aux utilisateurs de travailler avec différentes langues.
- Performances : les outils doivent être performants sachant que c'est un environnement virtuel.
- Extensibilité : Pouvoir facilement créer de nouveaux outils et les adapter à ceux existants.
- Interopérabilité: les outils doivent fournir des API publiques afin qu'elles puissent interagir avec d'autres composants sur le web.
- Adaptation du thème graphique: les outils doivent de pouvoir être personnalisés afin de respecter les préférences des différents utilisateurs.
- Evolutivité: les outils doivent fournir des fonctionnalités pour de petits ou grands corpus.
- Simplicité: L'interface des outils doit être facile d'utilisation.
- Référençabilité : les outils et leurs résultats devraient pouvoir être référencés et cités comme des ressources académiques.
A qui s'adresse-t-il?
Il est très simple d'utilisation, il s'adresse donc autant aux chercheurs qu'aux étudiants ou aux personnes intéressés à faire de l'analyse de texte.
Formats
Les différents types de format proposés pour l'importation et l'exportation. Comme il est toujours en beta, cela est susceptible d'évoluer.
- Format d'importation : HTML, TXT, XML, PDF, DOC
- Format d'exportation : CSV, TXT, XML
Prix
Il est gratuit!
Caractéristiques clés de Voyant Tools
- Utiliser des textes venant de nombreux formats (HTML, XML, PDF, RTF et doc)
- Utiliser des textes venant d'URL ou de fichiers uploadés
- Faire des analyses lexicales, y compris l'étude de fréquence et de distribution des données
- exporter des données vers d'autres outils (XML, etc.)
- Intégrer des fonctionnalités de Voyeur sur des sites web
Outils proposés par Voyant Tools
Voyant Tools propose différents outils concernant l'analyse de texte. Pour plus de détails (en anglais) concernant les fonctions de l'outil, cliquez dessus.
Certains outils comme Lava ou Term Fountain, nécessitent une version trop ancienne de java et ne semblent plus fonctionner.
Outils triés par ordre alphabétique
Bubblelines
- Bubblelines : outil de visualisation des répétitions des mots dans un ou plusieurs documents.
Bubbles
- Bubbles : outil illustrant la fréquence des mots grâce à des bulles plus ou moins grosses.
(image du site officiel de la version beta de l'outil)
Cirrus
- Cirrus : outil permettant d'illustrer la fréquence des mots d'un ou plusieurs textes dans un nuage de mot.
(image du site officiel de la version beta de l'outil)
Corpus Grid
- Corpus Grid : outil présentant de façon générale le corpus sous forme de table.
(image du site officiel de la version beta de l'outil)
Corpus Summary
- Corpus Summary : outil permettant d'avoir une vue d'ensemble, de forme textuelle, du corpus actuel.
(image du site officiel de la version beta de l'outil)
Corpus Term Frequencies
- Corpus Term Frequencies : outil montrant une table de la fréquence et de la répartition des mots dans un corpus entier.
(image du site officiel de la version beta de l'outil)
Collocate Term Frequencies
- Collocate Term Frequencies : outil présentant sous forme de table la fréquence des mots autour d'un mot clé. (ne semble pas disponible)
Document Term Frequencies
- Document Term Frequencies : outil présentant une table de la fréquence des mots pour chaque document dans le corpus.
Document KWICs
- Document KWICs : outils illustrant une table de mots-clés avec leur contexte.
(image du site officiel de la version beta de l'outil)
Entities Browser
- Entities Browser : visualisation d'entités nommées. (ne semble pas disponible)
Knots
- Knots : outil de visualisation qui aide à comprendre la pertinence des mots dans un ou plusieurs documents.
(image du site officiel de la version beta de l'outil)
Lava
- Lava : outil permettant d'afficher plusieurs niveaux d'un corpus dans un environnement 3D.
(image du site officiel de la version beta de l'outil)
Links
- Links : outils permettant de visualiser la fréquence des mots et leur proximité.
(image du site officiel de la version beta de l'outil)
Mandala
- Mandala : outil de visualisation qui importe les fichiers textuels pour effectuer des analyses sur la fréquence et la liaison des mots.
(image du site officiel de la version beta de l'outil)
Reader
- Reader : outil permettant la lecture de documents dans un corpus.
(image du site officiel de la version beta de l'outil)
ScatterPlot
- ScatterPlot : outil permettant la création d'un nuage de points dans un graphe représentant les termes, espacés par leur variation.
(image du site officiel de la version beta de l'outil)
Term Frequencies Chart
- Term Frequencies Chart : outil permettant de savoir comment sont répartis les termes par texte dans un corpus grâce à un graphique.
(image du site officiel de la version beta de l'outil)
Term Fountain
- Term Fountain : outil permettant de visualiser sous forme de fontaine la fréquence des mots.
(image du site officiel de la version beta de l'outil)
Annexe
Retrouvez l'ensemble des informations sur les outils sur cette page (en).
Développeurs de Voyant Tools
Présentation de l'interface générale (beta)
Interface d'accueil
Nous avons l'interface d'accueil lorsque nous arrivons sur le site.
Interface générale
Ensuite, nous avons aussi l'interface générale lorsque le texte a été analysé. Voir explications sur l'image.
Tutoriel (analyse de textes)
Introduction
Pour ce tutoriel, nous allons faire une petite analyse sur le livre "Candide ou l'Optimisme", un texte de Voltaire très connu dans la littérature française. Ce livre est disponible gratuitement et légalement sur ce site. Cela permettra de mieux contextualiser l'utilisation des principaux outils présent sur l'interface générale et quels types d'informations on peut en déduire. Le choix a été de faire l'analyse sur un texte, un exemple avec des images a été mis à la fin de cette analyse afin de pouvoir vous montrer quelques différences lorsque l'on analyse un corpus avec plusieurs textes.
Cette analyse sera aussi effectuée dans le tutoriel de Taporware 2.0 par Victor G.. Taporware 2.0 est un concurrent de Voyant Tools qui permet aussi de faire des analyses de textes. Cela permettra à l'utilisateur de pouvoir comparer ces deux outils et de regarder les avantages et désavantages des deux afin qu'ils puissent choisir celui qui répond le mieux à ses besoins. Les deux étant complémentaires au niveau de certaines fonctionnalités.
Formats utilisés
Pour cette analyse, le livre au format PDF a été converti en ".doc" (format de microsoft word). Malheureusement le format DOC semble être mal interprété par Voyant Tools au niveau des occurrences de mots. Après la fin de cette analyse et en discutant avec Victor G., il s'est avéré que Voyant Tools détecte plus d'occurrences qu'il y en a vraiment, ce qui peut être problématique pour une analyse sérieuse. Le format XML est mieux géré par Voyant Tools, les résultats semblent être plus proche de la réalité au niveau des occurrences malgré le fait que certaines différences subsistent entre Taporware 2.0 et Voyant Tools.
Le lien vers le fichier XML sur Voyant Tools qui ne sera pas utilisé dans ce tutoriel est disponible à ce lien : http://voyeurtools.org/?corpus=1418821858227.2267&stopList=stop.fr.veronis.txt (merci à Victor G. pour son fichier XML)
Nettoyage du texte
La première étape a consisté à nettoyer le texte au format ".doc" afin d'obtenir uniquement le contenu du livre. Pour cela, uniquement son titre, ses chapitres et son contenu ont été retenus pour l'analyse et le reste a été mis de coté. Cela a été fait dans le but de faciliter l'analyse, Voyant Tools n'étant pas un outil très puissant pour analyser seulement des parties spécifiques d'un unique texte. Celui-ci semble être plus adapté à analyser un corpus de plusieurs textes. Il est tout de même étonnant que Voyant Tools contrairement à Taporware ne permette pas pour un unique texte d'analyser chapitre par chapitre, même en utilisant le format XML et ses balises! Il propose uniquement de découper le texte par segments. Pour analyser chapitre par chapitre, il aurait fallu faire un corpus avec tous les chapitres, c'est à dire découper chaque chapitre du livre et de les mettre chacun dans un document ".doc" séparément.
L'analyse
Début de l'analyse
Premièrement, il faut accéder au site Voyant Tools via cette URL : http://voyeurtools.org/ On upload le ou les texte(s) et on clique sur "reveal" afin de lancer l'analyse du texte.
Une fois que cela est fait, on arrive sur l'interface générale. On va d'abord s'intéresser à l'outil "Cirrus". Avant de commencer l'analyse, sélectionner la "Stop Words List" dans les paramètres de l'outil (voir image). Cela va permettre de retirer les mots qui ne sont pas pertinents pour l'analyse comme "le, la, un, des, etc.". Cette liste est facilement éditable. La même procédure devra être répétée sur chaque outil.
Analyse avec Cirrus
Comme on peut le voir sur l'image ci-dessus, cet outil permet de voir les mots qui sont les plus répétés dans le corpus. En passant le curseur sur un mot, on peut avoir son nombre d'occurrence.
Dans le cadre de cette analyse, il est intéressant de relever que les mots les plus cités sont des personnages du livre. On a les mots : "Candide, Cunégonde, Cacambo, Martin, Pangloss" ceux-ci étant cités le plus de fois, on peut penser qu'ils sont les personnages principaux de l'histoire. Candide étant le mot le plus grand dans ce nuage (donc relevé le plus de fois), on peut supposer que c'est le personnage le plus important de l'histoire. Il y a aussi des personnages qui semblent moins importants comme la Veille, le Roi, le Baron, l'abbé qui sont présents dans ce nuage de mot. Du fait de leur petite taille dans le nuage, cela nous indique que ce sont sûrement des personnages secondaires.
Cet outil, nous permet aussi de relever certaines thématiques qui ont l'air de ressortir de cette œuvre, comme la question du bien et du mal ou plutôt des valeurs morales avec des mots comme : "mal, drame, bon, plaisir" présents dans le nuage. Les mots comme « venise, pays, vaisseau, ville » ont l'air de nous indiquer qu'il y a aussi la thématique du voyage dans ce roman. On peut supposer que l'oeuvre tourne autour de différents concepts s'affrontant au cours du récit avec des mots souvent citées s'opposant fortement comme : veille/belle-beau, bon/mal. On peut supposer qu'il y a aussi un rapport de force entre les personnages avec les mots comme : maître, patron, diamants, château. La notion du temps est aussi très présente avec les mots comme "moment, temps, jours". La religion a l'air de faire partie du récit de manière importante car on retrouve dans ce nuage des mots comme : "dieu, jésuite, l'abbé", sûrement que ce thématique est liée à celle du bien et du mal.
L'outil Cirrus nous a permis de faire une petite analyse préliminaire qui semble avoir soulevé plusieurs hypothèses intéressantes. Elles mériteraient d'être creusées.
Il est important de relever que Voyant Tools permet d'exporter et d'intégrer très simplement les outils dans une page web. Voir l'image ci-dessous pour voir comment exporter l'outil cirrus. Cette procédure est la même pour tous les outils.
Analyse avec Summary
Cet outil donne une vue intéressante sur le corpus mais n'est pas indispensable à l'analyse. Il donne : les mots les plus fréquents dans le corpus et par texte du corpus, le nombre de documents dans le corpus, le nombre de mots total et le nombre de mots unique dans le corpus et par texte du corpus".
Analyse avec Corpus Term Frequencies
Dans la suite de cette petite analyse menée dans le cadre de ce tutoriel, nous allons brièvement nous intéresser à la fréquence d'apparition des personnages grâces aux autres outils disponibles dans l'interface de Voyant Tools. Grâce à l'outil Corpus Term Frequencies, on peut sélectionner les mots que l'on veut traiter dans l'outil Word Trends (voir outil suivant). Nous sélections le nom des personnages qui semblent être principaux. On peut voir sur l'image ci-dessus que l'occurrence de ces mots est aussi mentionnée.
Analyse avec Word Trends
Une fois les noms des personnages sélectionnés dans l'outil Corpus Term Frequencies vu précédemment, ceux-ci s'affichent sous forme de graphique dans l'outil "Word Trends" dont l'axe vertical représente la fréquence des mots et l'horizontal représente le nombre de segments que l'on peut nous même définir (10 dans notre exemple d'analyse) lorsque l'on a uniquement un seul texte. Et qui représente les différents textes d'un corpus quand on a plusieurs textes. Grâce à ce graphique, on va pouvoir tirer des informations pertinentes concernant les personnages au cours du roman. On voit par exemple qu'au début du livre, Cacambo et Martin ne sont pas cités, parce qu'à ce stade du récit ces personnages n'interviennent pas dans l'histoire. Par contre Candide est Pangloss sont beaucoup cités ce qui signifie qu'ils sont importants pour le début de l'histoire. Si on regarde la courbe du mot "Candide", on s'aperçoit que ce mot est toujours plus cité que les autres mots dans l'ensemble du roman quelque soit le segment. On peut donc aisément conclure que Candide est le personnage principal et qu'il est le pilier de cette histoire sur l'ensemble du livre. Si on regarde la zone B, on voit que vers le segment 8 qui représente un peu plus que le tiers du livre, les personnages de Pangloss et Cacambo ne sont presque plus cités, ce qui voudrait dire qu'ils quittent l'histoire (pour diverses raisons) vers la fin du livre. Au même endroit la fréquence du mot martin augmente et candide aussi (Zone C et D), ce qui laisse penser que ces personnages prennent plus d'importance dû à l'abscence des deux autres à ce moment de l'histoire. Il faut aussi noter que la fréquence d'apparition des personnages principaux tend à se rejoindre vers la fin du livre (zone E) laissant penser qu'ils reviennent tous dans le récit à la fin du livre. Sont-ils cités par les autres personnages ou interviennent-ils directement, cela serait une question à approfondir.
Analyse avec Keywords in Context
Grâce à cet outil, on peut voir les mots sélectionner dans leur contexte. Sur l'image, on a un exemple des noms des personnages principaux dans leur contexte. Cela peut par exemple se révéler très utile pour obtenir rapidement des informations sur un ou plusieurs personnages.
Analyse avec Words in Documents
Grâce à cet outil, on peut voir la fréquence des mots mais aussi leur répartition un document du corpus. L'information est assez rebondante comme nous avons qu'un texte dans le corpus et que l'outil Corpus Term Frequencies concerne l'ensemble du corpus.
Lien vers voyant tools (outils + texte)
L'interface générale et ses outils avec ce texte est disponible dans Voyant Tools à cette adresse : http://voyeurtools.org/?corpus=1418734568523.3437&stopList=stop.fr.veronis.txt
Analyse avec un outil externe à l'interface générale
Nous avons présenté, l'ensemble des outils présents sur l'interface de base de Voyant Tools. Mais le site permet d'utiliser d'autres outils via des liens externes (voir présentation des outils). Nous allons donc compléter notre analyse de base par l'utilisation d'un de ces outils externes qui se nomme "links" proposé par Voyant Tools.
Analyse avec Links
Pour l'utilisation de l'outil links, nous avons utilisé ce lien : http://hermeneuti.ca/voyeur/tools/Links Nous avons donc ré-uploadé le texte sur la page de l'outil.
Grâce à links, on peut visualiser la fréquence des mots et leur proximité. On voit ici que Candide est le personnage le plus important car le plus cité (il est en gras). Il est en lien avec les autres personnages présent dans cette visualisation. Il est très proche de martin, on peut supposer qu'il doit surement être un bon ami à lui dans le récit. Cunégonde est aussi pas loin de lui, ce qui signifie qu'elle doit être proche de Candide dans le récit. Cacambo semble un peu plus éloigné de Candide ce qui signifie qu'il ne doit pas être présent à ses cotés pendant tout le récit ou qu'il a une place moins importante auprès de Candide. Il est d'ailleurs rattaché au mot "pays" et "maître", ce qui nous permet de poser une hypothèse comme quoi, il a du être trouvé dans un pays où il servait peut-être d'esclave.
Lien vers l'outil avec ce texte
L'outil avec ce texte est disponible dans Voyant Tools à cette adresse : http://voyeurtools.org/tool/Links/?corpus=1418820347081.2303&stopList=stop.fr.veronis.txt
Exemple avec un corpus de deux textes
Ici le chapitre 1 et 30 du livre Candide, ont été placé dans deux documents ".doc" afin d'obtenir un corpus de deux textes. Nous avons fait une analyse pour sur un texte unique, le fonctionnement avec un corpus (plusieurs textes) est similaire, comme vous pourrez en juger avec ces images. Voyant Tools fait juste une différence entre les textes du corpus et les outils permettent de faire des liens entre ces textes, comme on peut le voir sur l'image concernant l'outil "Links". Il semble d'ailleurs plus pertinents d'utiliser cet outil pour analyser un corpus de plusieurs textes plutôt qu'un unique texte car celui ne semble pas moins performant quant il s'agit de ce cas de figure.
Disponible dans Voyant Tools à cette adresse : http://voyeurtools.org/?corpus=1418821751399.7319&stopList=stop.fr.veronis.txt
Disponible dans Voyant Tools à cette adresse : http://voyeurtools.org/tool/Links/?corpus=1418821444103.5122&stopList=stop.fr.veronis.txt
Remarques générales concernant Voyant Tools
Grâce à cette analyse préliminaire basée sur Voyant Tools, on a pu formuler de premières hypothèses intéressantes concernant ce texte. Voyant Tools est un outils intéressant pour faire rapidement des analyses de façon simple mais je pense que pour des recherches sérieuses ou plus poussées, il vaut mieux se baser sur un logiciel plus puissant et fiable. Cette analyse réalisée dans le cadre de ce tutoriel nous a permis de constater les points forts et les points faibles de ce site. Nous allons donc séparer les points positifs des points négatifs. Cela permettra aux gens lisant ce tutoriel de savoir quel sont ces avantages et ses désavantages lorsqu'il utilise cet outil.
Points forts
Il accepte de nombreux formats et les accents sont bien reconnus. Il est très simple d'utilisation grâce à une interface ergonomique et aussi grâce à une "stop words list" déjà incluse. Il a de nombreux outils intéressants qui sont facilement exportables et intégrables aux sites Web. Il semble bien adapté à l'analyse de Corpus.
Points faibles
Certains formats comme le ".doc" semble n'être pas très bien pris en compte, par exemple au niveau du nombre d'occurrence et sont donc à éviter. Le ".doc" ne semble pas bien fonctionner avec l'outil reader qui permet de visualiser le texte analysé. Ces deux points semblent être moins problématique avec le XML bien que certaines différences au niveau des occurrences des mots semblent encore exister avec Taporware 2.0. L'outil en ligne est assez instable et n'est pas forcément disponible tout le temps. En effet, le serveur du site n'était parfois pas accessible lors de la réalisation de ce tutoriel. Il y a aussi certains bugs au niveau des outils qui se chargent parfois mal. Voyant Tools n'est pas à recommander lorsque l'on analyse un texte unique.