Tropes
Analytique et exploration de données | |
---|---|
Module: Outils text mining | |
⚐ à améliorer | ☸ avancé |
⚒ 2014/12/17 | ⚒⚒ 2014/11/19 |
Informations générales
Le logiciel Tropes est un logiciel de texte mining ou aussi d’analyse sémantique. Ce logiciel a été créé en 1994 et ne fonctionne que sous Windows.
Ce logiciel permet de déterminer, au sein d’un ou plusieurs textes, qui sont les acteurs principaux, quelles sont les relations qui les lient, etc… Il va également faire ressortir le sens global du texte.
Actuellement, la dernière version disponible de Tropes est la version V8.4.2. Ce logiciel est gratuit et disponible en anglais ou en français Vous pouvez télécharger le logiciel sur le site officiel de Tropes : http://www.tropes.fr/download.htm .
Prise en main
Formats utilisables
Il est conseillé d’utiliser le format .txt ou .html. Voici cependant la liste des formats pris en charge :
Ouvrir des fichiers dans Tropes
Il est possible d’ouvrir soit des fichiers soit des dossier sur Tropes :
- Fichier > Ouvrir et sélectionner le ou les fichiers à analyser
- Fichier > Dossier > Ouvrir un dossier
Cette deuxième option permet d’ouvrir tous les fichiers contenus dans un dossier.
L’onglet “fichier”
Il contient le fichier ou la liste de fichier (si un dossier a été ouvert). Il y a plusieurs options :
- Analyser : pour lancer l’analyse du ou des fichiers
- Editer : ouvre une fenêtre pour éditer le texte et le ré-enregistrer
- Effacer : pour supprimer le fichier de la liste
- Ajouter : pour ajouter un fichier dans la liste des fichiers à analyser
- Trier : trier le fichier pas titre
Analyse de plusieurs fichiers
Lorsqu’un dossier a été ouvert et qu’une analyse est lancée, l’écran contient ensuite un texte composé des contenus de tous les fichiers qui ont été analysés. Si la liste se compose des divers chapitres d’un livre, le texte qui sort de l’analyse est le texte complet de l’oeuvre. Lorsque le texte est parcouru, il y a une indication du titre du texte qui est affiché au sommet de l’écran. L'utilisateur peut identifier d’où vient le texte qu’il a sous les yeux.
Définition de termes importants
- Classes d’équivalents : regroupent les termes selon s’ils font partie de même famille, synonyme,etc.
- Exemple "corps" qui comprend :cheveux, front, épaules, etc.
- Actants: classes d’équivalents qui se trouvent avant le verbe et sont souvent son sujet
- Actés: classes d’équivalents qui se trouvent après le verbe et ne sont pas le sujet de ce dernier (habituellement)
Clique de la souris sur un mot
À tout moment, lorsque le curseur de la souris se trouve sur un mot dans la fenêtre centrale, le message "Cliquez-moi" apparaît. Lorsque l'utilisateur clique sur un mot, une information sur la nature du mot est donnée.
Lorsque le mot cliqué est un adjectif qui porte des marques de genre ou de nombre, tropes donne la "valeur" lorsqu'il est de genre masculin et singulier.
Il est de même pour les termes au pluriel. En effet, tropes donne la "valeur" du terme au singulier.
L’analyse de texte
Une fois un fichier ouvert, il est analysé et un ensemble de résultats est disponible. Cet ensemble comprend : le style, l’univers de référence, les références utilisées, le scénario, les relations, les catégories fréquentes, toutes les catégories, chacune des catégories et les épisodes.
Les résultats sont disponibles dans une zone en haut à gauche de l’écran :
En cliquant dans la liste des résultats possibles, les résultats apparaissent dans la zone en dessous de la zone des résultats.
En cliquant sur les différents résultats, la zone centrale va afficher les propositions qui constituent ce résultat.
Dans la marge à gauche, il y a un rond blanc et bleu qui permet d’afficher le contexte de la proposition qui a été mise en valeur.
Style
Tropes fait un diagnostic du style du texte et de la mise en scène verbale en fonction des indicateurs statistiques qu’il récupère durant l’analyse. Il y a 4 styles possibles :
Il y a également 4 mises en scènes possibles :
En cliquant dans la zone des résultats sur une des lignes qui sont présentes, tous les mots qui ont été pris en compte pour établir le style/la mise en scène apparaissent dans la zone centrale en couleur. L’analyse est statistique, ce qui implique qu’elle n’est fiable que si le texte est long.
Univers de référence
L’univers de référence correspond au contexte global du texte. Il s’agit d’une fonction qui affiche dans un ordre décroissant les Univers de référence des mots du texte. Les univers de référence regroupent dans des classes d’équivalents les principaux mots/thèmes du texte qui a été analysé. Il y a deux niveaux d’univers de référence : 1 qui affiche le contexte général et 2 qui affiche le contexte détaillé. En cliquant sur une classe d’équivalents, les divers termes qui la composent sont affichés dans la zone centrale.
Références utilisées
Il s’agit d’une fonction qui affiche les substantifs utilisés dans le texte regroupés en classe d’équivalent et organisés selon leur fréquence dans un ordre décroissant, c’est-à-dire la plus haute fréquence en premier. Chaque ligne contient le nombre d'occurrences du terme suivi du terme en question. En cliquant sur une ligne, le contenu de la classe apparaît dans l’écran central. Les mots qui composent la classe apparaissent en bleu.
Cette fonction permet de répondre à la question : sur quoi porte le texte?
Scénario
Il s’agit de classifications hiérarchiques qui permettent de structurer les informations en fonction de la stratégie d'analyse que l’on souhaite utiliser. Pour faire une analyse efficace du texte, il faudrait établir soi-même son scénario à l’aide de l’outil scénario.(cf. 4.1 Outil scénario)
Relations
Il s’agit d’une fonction qui affiche les relation de co-ocurrence entre les classes d’équivalents. Elle les affiche triées par fréquence décroissante. Chaque ligne contient le nombre d’occurrences et la relation correspondante.
Catégories fréquentes
Cette fonction affiche les catégories de mots les plus fréquentes.
Toutes les catégories
Il s’agit d’une fonction qui affiche toutes les catégories des mots qui composent le texte analysé. Les lignes sont composées d’une catégorie, de sa répartition dans la catégorie générale en pourcentage et du nombre d’occurrence qui a été trouvé.
Il est également possible d'afficher uniquement les verbes, les adjectifs ou les substantifs dans le choix des résultats.
Episodes et rafales
Une rafale regroupe des termes qui arrivent souvent dans une partie limitée du texte mais pas sur l’ensemble du texte.
Un épisode est une partie du texte dans lequel il y a un certain nombre de rafales qui se sont formées puis arrêtées. Il s’agit en fait de blocs d’argumentation qui représente la structure du discours observé.
Grâce à ces deux notions, il est possible d’étudier la chronologie du discours.
Graphes
Il existe 5 types de graphes. Le graphe d’acteur, d’aires et le graphe étoilés servet à représenter les relations entre les classes d’équivalent. Le graphe de répartitions et d’épisodes concernent la chronologie du texte. Pour afficher les graphes il faut les sélectionner dans la barre d’outils située en haut à gauche.
Graphes acteurs
Ce graphe permet de représenter la relation entre les différents acteurs et actés dans la totalité du texte qui a été analysé.
Il y a deux axes :
- l’axe des X représente le taux actant/acté, à droite se trouve les actants ayant le plus de poids et à gauche les actés avec le moins de poids
- l’axe des Y représente la concentration des relations, en haut se trouve les termes qui ont beaucoup de relation et en bas peu de relation
Les actants sont représentés par des bulles bleues et les actés par des bulles vertes. Dans la zone au-dessus du graphe, il y a la liste des propositions où le terme sélectionné apparaît. En positionnant la souris sur chaque bulle, nous voyons apparaître les relations de cette bulle. En cliquant sur le fond du graphe, toutes les relations apparaissent.
Il est possible de faire apparaître plus ou moins de relation. C’est à dire d’augmenter ou de diminuer le nombre de bulles (termes) qui apparaissent. Pour se faire, il faut utiliser le curseur à droite du graphe.
Graphes aires
Les graphes des aires permettent de représenter toutes les références sous forme de sphères. En cliquant sur un terme dans la liste des références utilisées, le graphe des aires de cette référence apparaît.
La surface des sphères dans le graphe est proportionnelle au nombre d’occurrences du mot.
Le graphe est produit pour chaque référence, ci-dessus nous voyons le graphe de la référence “Bovary”. Autour de cette référence se trouvent les termes qui ont une relation avec “Bovary”. Les termes les plus proches de l'occurrence sont ceux qui lui sont associés le plus souvent. Les éléments qui se trouvent à gauche sont ceux qui précèdent “Bovary” dans leur apparition et les termes à droite sont ceux qui le suivent. Le curseur à droite permet d’augmenter ou diminuer le nombre d’éléments qui seront affichés.
Graphes étoilés
Il affiche les relations entre les classes d’équivalents (références utilisées, relations, …) ou entre une catégorie de mots et des classes d’équivalents.
Dans l’exemple ci-dessus, le terme “Bovary” a été sélectionné dans les Références utilisées. Nous voyons à droite les termes qui précèdent “Bovary” et le nombre de fois qu’il apparaît dans cette relation et à droite les termes qui succèdent à “Bovary” ainsi que le nombre de fois où cette relation a lieu. Une même référence peut apparaître avant et après le terme sélectionné, dans ce cas elle apparaît à gauche et à droite. Dans la zone au-dessus du graphe, il y a la liste des propositions où le terme sélectionné apparaît.
Graphes de répartitions
Le graphe de répartitions permet d’afficher un histogramme de répartition chronologique d’une classe d’équivalents, d’une relation, d’une catégorie de mot (ex: verbe, adjectif, etc.) Exemple : verbe “être”
Le graphe permet de savoir quand le terme apparaît dans le texte. Il permet de savoir si le terme est souvent présent, quand il est le plus ou le moins présent. Le graphe est chronologique c’est-à-dire qu’il se lit de gauche (début du texte) à droite (fin du texte). La barre en pointillés indique la taille moyenne des barres. Si le graphe est fait à partir d’une relation, il montrera la fréquence de l’apparition combinée des termes constituant la relation La zone au dessus du graphe contient toutes les apparitions du terme sélectionné, dans notre cas “être”. En cliquant sur une des barres, la proposition concernée par la barre est mise en valeur dans la zone au-dessus du graphe. Le curseur sur la droite permet de faire varier le nombre de barres de l’histogramme affiché.
Graphes épisodes
Ce graphe s’affiche quand les épisodes sont utilisés. Il affiche les épisodes et les rafales. Les lignes en pointillé représentent les rafales et indiquent la longueur de la rafale et sa position en fonction du début du texte. Il y a un ordre chronologique : la gauche est le début du texte et la droite la fin. Les épisodes sont affichés sous la forme de cadres en pointillés. Ils ont également un ordre chronologique. Lorsqu’un épisode est sélectionné, les rafales contenues dans ce dernier sont affichées en couleur.
Quand l’utilisateur clique sur une rafale, la proposition qui la contient est affichée dans la zone au-dessus du graphe. Tropes supprime les rafales les moins significatives s’il n’y a pas assez de place pour tout afficher.
Outils proposés par Tropes
Outils scénario
L'outil scénario pour les Nuls
Voici une vidéo qui va présenter le fonctionnement de base de l'outil Scénario.
Classe d’équivalents et groupes sémantiques
Lorsqu’une entrée d’un groupe sémantique fait référence à une classe d’équivalents, divers mots sont regroupés dedans. Ces différents items sont suivis d’une note entre parenthèses. Par exemple :
- Un astérisque (*), si cet item contient une Référence utilisée ;
- Le nombre 1 ou le nombre 2, si cet item contient un des deux Univers de références ;
- Un S, si le lemme ajouté est un sujet
- Un V, si le lemme ajouté est un verbe
- Un A, si le lemme ajouté est un adjectif
Sur l’image ci-dessous, le groupe sémantique « Alimentation et vie pratique » contient une entrée « Bain ». Cette entrée « Bain » contient par exemple le verbe « baigner », le mot « bain » suivi de « (*) » et le mot bain suivi de « (2) ».
Tout en bas de cette image, la case « Visible » est cochée. Si cette case est décochée, tous les mots contenus dans « Bain » seraient provisoirement masqués. Celle-ci permet de mettre un peu d’ordre et de voir plus clair dans cette longue liste.
Scénarios et ambiguïté
L’outil de scénario de Tropes permet aussi de résoudre des ambiguïtés. Par exemple, prenons le mot « Opéra », celui-ci peut aussi bien désigner une pâtisserie que le lieu ou l’art. Imaginons que vous soyez un féru de pâtisserie, vous ne voulez donc pas que Tropes mettent toujours le terme « Opéra » contenu dans vos textes sous « Art et culture ». Dans ce cas, vous pouvez ajouter le mot « Opéra » dans la classe « Culinaire », celui-ci sera donc toujours associé à cette classe, peu importe le texte que vous traitez.
Attention : Vous ne pouvez pas insérer le même mot dans deux groupes différents !
Informations importantes concernant l’entrée de mots dans les scénarios
- Lorsque vous entrez un substantif au singulier, le pluriel est aussi pris en compte. Si vous entrez un mot au pluriel, il ne prendra pas en compte le mot au singulier.
- Lorsque vous entrez un mot composé qui est inconnu par Tropes, il va être ajouté au dictionnaire. On peut par exemple vouloir que le prénom et le nom d’une personne soient regroupés afin de ne pas avoir deux entrées différentes. Dans ce cas, il est recommandé de mettre un « _ » entre les éléments de ce mot composé. Par exemple, si vous travaillez sur le livre d’Alphonse Daudet Tartarin de Tarascon, il est préférable d’entré son nom sous « Tartarin_de_Tarascon » afin que le logiciel n’identifie plus « Tarascon » comme une ville, mais comme le nom du personnage principal.
Extraction terminologique
L’extracteur terminologique est un outil précieux lorsque vous créez vos propres scénarios. En effet, celui-ci va repérer toutes les expressions et mots composés pertinents. Il va aussi repérer les mots qui n’apparaissent pas du tout dans les scénarios existants. Il va donc vous permettre d’enrichir vos scénarios bien plus rapidement que si vous ajoutiez les termes un par un.
L’image ci-dessous est l’affichage type de l’extracteur terminologique.
Chaque expression a un groupe d’appartenance (par exemple, « air_affolé » appartient au groupe « air ») et est précédée d’un petit carré qui indique sa fréquence d’occurrence (plus le carré est bleu, plus l’expression est répétée).
L’extracteur terminologique est équipé d’une fonction de localisation afin de pouvoir insérer automatiquement les différents termes dans un scénario. Cet outil n’est pas forcément adéquat à cause de la polysémie des mots.
Par exemple, si l’on veut insérer dans notre scénario tous les mots du groupe « air », ceux-ci vont être insérés dans Agriculture et environnement > Air et atmosphère > Air. Si l’on observe correctement les différents mots composés contenus dans la liste de l’extracteur, le mot « air » peut effectivement se référer à l’atmosphère (« air frais », « air chaud » etc…), mais aussi à l’expression d’une personne (« air ébahi », « air incrédule » etc…). Si vous ne voulez pas que tous ces termes se retrouvent dans le même groupe, il faut décocher les cases contenues dans l'encadrer « Localiser ».
Options de l’extracteur terminologique
Cet outil va vous permettre de faire une recherche plus fine. Vous pouvez par exemple n’afficher que les mots qui ne sont pas classés, c’est-à-dire les termes inconnus du logiciel.
Vous pouvez aussi filtrer les termes significatifs etc… Afin de relancer la recherche faite par l’extracteur, vous devez appuyer sur le bouton « Rétablir ».
L’outil “Délimiteur”
Il s’agit d’un outil permettant de faire une segmentation automatique du document. Il permet par exemple dans un texte d’isoler automatiquement les chapitres d’un livre, les propos d’un personnage dans un dialogue, etc.
Dans le cas d'un dialogue d'une pièce de théâtre par exemple, les noms des locuteurs peuvent être utilisés comme délimiteur. Dans ce cas, il sera possible d'isoler les paroles d'un ou plusieurs personnages.
L’utilisation de délimiteurs nécessite la plupart du temps un codage préalable. Il s’agit d’introduire dans le texte des codes/mots clés qui pourront servir de délimiteur. Par exemple, en ajoutant “intro” au début du texte, puis “chap1” au début du premier chapitre, etc. Ces codes permettront de définir les délimiteurs et donc de découper le texte.
Ce codage ce fait dans le texte avant qu’il soit importé dans Tropes.
Pour accéder aux délimiteurs, il faut aller dans "Outils", et sélectionner "Délimiteur". Une fenêtre pour les délimiteurs est alors ouverte.
En cliquant sur fichier il est possible d'utiliser un fichier délimiteur si un fichier existe. Il est également possible de créer un fichier délimiteur en cliquant sur "nouveau".
Création d'un délimiteur
Après avoir cliquer sur "fichier" et "nouveau", une fenêtre vide est sous vos yeux.
Il faut entrer le code d'un délimiteur dans la petite zone de texte et cliquer sur "ajouter" pour "créer" le délimiteur. Il faut recommencer l'expérience avec tous les codes que l'on souhaite utiliser comme délimiteurs.
Il faut ensuite sauvegarder ce nouveau fichier délimiteur.
Utilisation des délimiteurs
Dans "fichier", il faut ouvrir le fichier délimiteur que l'on souhaite utiliser. Il y a ensuite la liste des délimiteurs dans la grande zone de texte. Il est possible de cocher/décocher chaque délimiteur.
Lorsqu'un délimiteur est coché et que l'utilisateur clique sur appliqué, tout le texte qui suit ce délimiteur est caché.
Etapes de travail de Tropes
Découpage propositionnel
Le logiciel va découper le texte en phrases simples (un seul verbe).
Pour réaliser ce découpage, le logiciel va se servir de la levée d’ambiguïté et de fonctions d’analyses de la syntaxe des phrases et de la ponctuation.
Ce découpage va par exemple permettre au logiciel de repérer les relations entre les mots. Ces statistiques se basent sur le fait que deux mots qui se trouvent dans la même proposition sont forcément étroitement liés.
La levée d’ambiguïté
En français, les ambiguïtés sont extrêmement nombreuses. Tropes permet de les résoudre (en grande partie).
Par exemple, Tropes va résoudre des ambiguïtés grammaticales et syntaxiques. Par exemple, Tropes va pouvoir deviner la classe grammaticale du mot « brise » dans deux contextes différents :
- Dans la phrase « une brise légère s’installait sur Genève», Tropes va deviner que le mot « brise » est un nom commun,
- Dans la phrase « L’homme brise la vitre », Tropes va deviner que le mot « brise » est un verbe.
Tropes va aussi résoudre des ambiguïtés sémantiques (par exemple, le mot « avocat » peut se référer à un fruit, mais aussi à un métier).
Tropes arrive à résoudre un grand nombre d’ambiguïtés, mais pas toutes. Son taux d’erreur reste faible.
Catégorisation des mots
Tropes va regrouper les mots d'un texte dans des catégories lexicales. Nous allons particulièrement nous intéresser à 6 d'entre elles.
- Les verbes
- Factifs = verbes exprimant des actions ("marcher", "tuer" etc...)
- Statifs = verbes exprimant des états ("demeurer", "rester" etc...)
- Déclaratifs = verbes exprimant une déclaration sur quelque chose ("dire", "penser", "croire" etc...)
- Performatifs = verbes exprimant un acte par le langage ("promettre", "demander" etc...)
- Les connecteurs
- Conjonctions de coordination (mais, où, et, donc, or, ni, car)
- Conjonctions de subordination (exemple: comme, lorsque, quand, quoique, si etc...)
- Locutions conjonctives (exemple: au cas où, ou bien, ainsi que etc...)
- Les modalisations
- Adverbes
- Locutions adverbiales
- Les adjectifs qualificatifs et les nombres
- Les pronoms personnels
- Les substantifs et les noms propres
Analyses statistiques
Tropes va effectuer de nombreuses analyses statistiques afin de pouvoir construire, par exemple, les graphes que nous avons vus plus haut et les divers résultats.
Il va par exemple effectuer les analyses suivantes:
- Statistiques sur la fréquence globale d'apparition des diverses catégories de mots
- Statistiques sur les cooccurrences et les diverses liaisons des classes d'équivalents et des catégories de mots
- Une analyse qui va permettre de détecter les propositions remarquables
Les options
Il est possible dans Tropes de changer certaines options. Pour ce faire, il faut aller dans "Outils" puis "Options générales" ou "Options d'analyse".
Options générales
Dans les options générales, il est possible de paramétrer l'affichage des résultats comme par exemple l'affichage de l'aide, l'affichage en gros caractères, etc.
Il est possible de modifier le type d'installation avec l'onglet "Installation".
Il est également possible d'aller dans l'onglet "Scénario" qui permet divers réglages tels que la désactivation des messages d'avertissement lors des suppressions, de choisir le critère de tri du scénario, etc.
Options d'analyse
Il est possible d'agir sur le moteur d'analyse du logiciel à partir de cette fenêtre.
Il est possible d'agir sur le seuil de détection des classes, de décider sur quelle chose on désire établir les relations (références utilisées, scénario, etc.)
Dans l'onglet "Conversions" il est possible de paramétrer les filtres de lecture des formats Words et PDF.
Impression
Il est possible d'imprimer les résultats obtenus. Pour se faire, aller dans "fichiers" et "imprimer". Une fenêtre s'ouvre et il est possible de choisir ce que l'on désire imprimer, la police, la couleur, etc.
Références
- Manuel d'utilisation de Tropes v8.4 : http://tropes.fr/ManuelDeTropesV840.pdf
- Téléchargement de Tropes v8.4: http://tropes.fr/download.htm