« Tropes » : différence entre les versions

Dernière version du 22 janvier 2015 à 15:21

Analytique et exploration de données
Module: Outils text mining

⚐ à améliorer	☸ avancé
⚒ 2015/01/22	⚒⚒ 2014/11/19
Catégorie: Outils text mining

Objectif de la page

Cette page est un tutoriel du logiciel Tropes. Elle explique comment lancer une analyse,quelles sont les différentes fonctionnalités du logiciel, les étapes de travail du logiciel (comment ce dernier prépare le(s) corpus, etc.)

Informations générales sur Tropes

Le logiciel Tropes est un logiciel d'analyse sémantique et également de text mining. Ce logiciel a été créé en 1994 et ne fonctionne que sous Windows.

Ce logiciel permet de déterminer, au sein d’un ou plusieurs textes, qui sont les acteurs principaux, quelles sont les relations qui les lient, etc… Il va également faire ressortir le sens global du texte.

Actuellement, la dernière version disponible de Tropes est la version V8.4.2. Ce logiciel est gratuit et disponible en anglais ou en français Vous pouvez télécharger le logiciel sur le site officiel de Tropes : http://www.tropes.fr/download.htm .

Prise en main

Formats utilisables

Il est conseillé d’utiliser le format .txt ou .html. Voici cependant la liste des formats pris en charge :

Ouvrir des fichiers dans Tropes

Il est possible d’ouvrir soit des fichiers soit des dossiers sur Tropes :

Fichier > Ouvrir et sélectionner le ou les fichiers à analyser
Fichier > Dossier > Ouvrir un dossier

Cette deuxième option permet d’ouvrir tous les fichiers contenus dans un dossier.

L’onglet “fichier”

Il contient le fichier ou la liste de fichiers (si un dossier a été ouvert). Il y a plusieurs options :

Analyser : pour lancer l’analyse du ou des fichiers
Editer : ouvre une fenêtre pour éditer le texte et le ré-enregistrer
Effacer : pour supprimer le fichier de la liste
Ajouter : pour ajouter un fichier dans la liste des fichiers à analyser
Trier : trier les fichiers par titre

Analyse de plusieurs fichiers

Lorsqu’un dossier a été ouvert et qu’une analyse est lancée, l’écran contient ensuite un texte composé des contenus de tous les fichiers qui ont été analysés. Si la liste se compose des divers chapitres d’un livre, le texte qui sort de l’analyse est le texte complet de l’oeuvre. Lorsque le texte est parcouru, il y a une indication du titre du texte qui est affiché au sommet de l’écran. L'utilisateur peut identifier d’où vient le texte qu’il a sous les yeux.

Définition de termes importants

Classes d’équivalents : regroupent les termes selon s’ils font partie de la même famille, s'ils sont synonymes,etc.
- Par exemple, "corps" comprend :cheveux, front, épaules, etc.
Actants: classes d’équivalents qui se trouvent avant le verbe et sont souvent son sujet
Actés: classes d’équivalents qui se trouvent après le verbe et ne sont pas le sujet de ce dernier (habituellement)

Cliquer sur un mot

À tout moment, lorsque le curseur de la souris se trouve sur un mot dans la fenêtre centrale, le message "Cliquez-moi" apparaît. Lorsque l'utilisateur clique sur un mot, une information sur la nature du mot est donnée.

Lorsque le mot cliqué est un adjectif qui porte des marques de genre ou de nombre, Tropes donne la "valeur" lorsqu'il est de genre masculin et singulier.

Il est de même pour les termes au pluriel. En effet, Tropes donne la "valeur" du terme au singulier.

L’analyse de texte

Une fois un fichier ouvert, il est analysé et un ensemble de résultats est disponible. Cet ensemble comprend : le style, l’univers de référence, les références utilisées, le scénario, les relations, les catégories fréquentes, toutes les catégories, chacune des catégories et les épisodes.

Les résultats sont disponibles dans une zone en haut à gauche de l’écran :

En cliquant dans la liste des résultats possibles, les résultats apparaissent dans la zone en dessous de la zone des résultats.

En cliquant sur les différents résultats, la zone centrale va afficher les propositions qui constituent ce résultat.

Dans la marge à gauche, il y a un rond blanc et bleu qui permet d’afficher le contexte de la proposition qui a été mise en valeur.

Style

Tropes fait un diagnostic du style du texte et de la mise en scène verbale en fonction des indicateurs statistiques qu’il récupère durant l’analyse. Il y a 4 styles possibles :

Il y a également 4 mises en scène possibles :

En cliquant dans la zone des résultats sur une des lignes qui sont présentes, tous les mots qui ont été pris en compte pour établir le style/la mise en scène apparaissent dans la zone centrale en couleur. L’analyse est statistique, ce qui implique qu’elle n’est fiable que si le texte est long.

Univers de référence

L’univers de référence correspond au contexte global du texte. Il s’agit d’une fonction qui affiche dans un ordre décroissant les Univers de référence des mots du texte. Les univers de référence regroupent dans des classes d’équivalents les principaux mots/thèmes du texte qui a été analysé. Il y a deux niveaux d’univers de référence : le premier affiche le contexte général et le second affiche le contexte détaillé. En cliquant sur une classe d’équivalents, les divers termes qui la composent sont affichés dans la zone centrale.

Références utilisées

Il s’agit d’une fonction qui affiche les substantifs utilisés dans le texte regroupés en classes d’équivalents et organisés selon leur fréquence dans un ordre décroissant, c’est-à-dire la plus haute fréquence en premier. Chaque ligne contient le nombre d'occurrences du terme, suivi du terme en question. En cliquant sur une ligne, le contenu de la classe apparaît dans l’écran central. Les mots qui composent la classe apparaissent en bleu.

Cette fonction permet de répondre à la question : sur quoi porte le texte?

Scénario

Il s’agit de classifications hiérarchiques qui permettent de structurer les informations en fonction de la stratégie d'analyse que l’on souhaite utiliser. Pour faire une analyse efficace du texte, il faudrait établir soi-même son scénario à l’aide de l’outil scénario.(cf. 5.1 Outil scénario)

Relations

Il s’agit d’une fonction qui affiche les relations de co-ocurrence entre les classes d’équivalents. Elle les affiche triées par fréquence décroissante. Chaque ligne contient le nombre d’occurrences et la relation correspondante.

Catégories fréquentes

Cette fonction affiche les catégories de mots les plus fréquentes.

Toutes les catégories

Il s’agit d’une fonction qui affiche toutes les catégories des mots qui composent le texte analysé. Les lignes sont composées d’une catégorie, de sa répartition dans la catégorie générale en pourcentage et du nombre d’occurrence qui a été trouvé.

Il est également possible d'afficher uniquement les verbes, les adjectifs ou les substantifs dans le choix des résultats.

Episodes et rafales

Une rafale regroupe des termes qui arrivent souvent dans une partie limitée du texte mais pas sur l’ensemble du texte.

Un épisode est une partie du texte dans lequel il y a un certain nombre de rafales qui se sont formées puis arrêtées. Il s’agit en fait de blocs d’argumentation qui représentent la structure du discours observé.

Grâce à ces deux notions, il est possible d’étudier la chronologie du discours.

Graphes

Il existe 5 types de graphes. Le graphe d’acteur, d’aires et le graphe étoilé servent à représenter les relations entre les classes d’équivalent. Le graphe de répartitions et d’épisodes concernent la chronologie du texte. Pour afficher les graphes il faut les sélectionner dans la barre d’outils située en haut à gauche.

Graphes acteurs

Ce graphe permet de représenter la relation entre les différents acteurs et actés dans la totalité du texte qui a été analysé.

Il y a deux axes :

l’axe des X représente le taux actant/acté, à droite se trouve les actants ayant le plus de poids et à gauche les actés avec le moins de poids
l’axe des Y représente la concentration des relations, en haut se trouve les termes qui ont beaucoup de relations et en bas peu de relations

Les actants sont représentés par des bulles bleues et les actés par des bulles vertes. Dans la zone au-dessus du graphe, il y a la liste des propositions où le terme sélectionné apparaît. En positionnant la souris sur chaque bulle, nous voyons apparaître les relations de cette bulle. En cliquant sur le fond du graphe, toutes les relations apparaissent.

Il est possible de faire apparaître plus ou moins de relations. C’est à dire d’augmenter ou de diminuer le nombre de bulles (termes) qui apparaissent. Pour ce faire, il faut utiliser le curseur à droite du graphe.

Graphes aires

Les graphes des aires permettent de représenter toutes les références sous forme de sphères. En cliquant sur un terme dans la liste des références utilisées, le graphe des aires de cette référence apparaît.

La surface des sphères dans le graphe est proportionnelle au nombre d’occurrences du mot.

Le graphe est produit pour chaque référence, ci-dessus nous voyons le graphe de la référence “Bovary”. Autour de cette référence se trouvent les termes qui ont une relation avec “Bovary”. Les termes les plus proches de l'occurrence sont ceux qui lui sont associés le plus souvent. Les éléments qui se trouvent à gauche sont ceux qui précèdent “Bovary” dans leur apparition et les termes à droite sont ceux qui le suivent. Le curseur à droite permet d’augmenter ou de diminuer le nombre d’éléments qui seront affichés.

Graphes étoilés

Il affiche les relations entre les classes d’équivalents (références utilisées, relations, …) ou entre une catégorie de mots et des classes d’équivalents.

Dans l’exemple ci-dessus, le terme “Bovary” a été sélectionné dans les Références utilisées. Nous voyons à droite les termes qui précèdent “Bovary” et le nombre de fois qu’il apparaît dans cette relation et à droite les termes qui succèdent à “Bovary” ainsi que le nombre de fois où cette relation a lieu. Une même référence peut apparaître avant et après le terme sélectionné, dans ce cas elle apparaît à gauche et à droite. Dans la zone au-dessus du graphe, il y a la liste des propositions où le terme sélectionné apparaît.

Graphes de répartitions

Le graphe de répartitions permet d’afficher un histogramme de répartition chronologique d’une classe d’équivalents, d’une relation, d’une catégorie de mot (ex: verbe, adjectif, etc.) Exemple : verbe “être”

Le graphe permet de savoir quand le terme apparaît dans le texte. Il permet de savoir si le terme est souvent présent, quand il est le plus ou le moins présent. Le graphe est chronologique c’est-à-dire qu’il se lit de gauche (début du texte) à droite (fin du texte). La barre en pointillés indique la taille moyenne des barres. Si le graphe est fait à partir d’une relation, il montrera la fréquence de l’apparition combinée des termes constituant la relation. La zone au dessus du graphe contient toutes les apparitions du terme sélectionné, dans notre cas “être”. En cliquant sur une des barres, la proposition concernée par la barre est mise en valeur dans la zone au-dessus du graphe. Le curseur sur la droite permet de faire varier le nombre de barres de l’histogramme affiché.

Graphes épisodes

Ce graphe s’affiche quand les épisodes sont utilisés. Il affiche les épisodes et les rafales. Les lignes en pointillés représentent les rafales et indiquent la longueur de la rafale et sa position en fonction du début du texte. Il y a un ordre chronologique : la gauche est le début du texte et la droite, la fin. Les épisodes sont affichés sous la forme de cadres en pointillés. Ils ont également un ordre chronologique. Lorsqu’un épisode est sélectionné, les rafales contenues dans ce dernier sont affichées en couleur.

Quand l’utilisateur clique sur une rafale, la proposition qui la contient est affichée dans la zone au-dessus du graphe. Tropes supprime les rafales les moins significatives s’il n’y a pas assez de place pour tout afficher.

Outils proposés par Tropes

Outils scénario

L'outil scénario pour les Nuls

Voici une vidéo qui va présenter le fonctionnement de base de l'outil Scénario.

Classe d’équivalents et groupes sémantiques

Lorsqu’une entrée d’un groupe sémantique fait référence à une classe d’équivalents, divers mots sont regroupés dedans. Ces différents items sont suivis d’une note entre parenthèses. Par exemple :

Un astérisque (*), si cet item contient une Référence utilisée ;
Le nombre 1 ou le nombre 2, si cet item contient un des deux Univers de références ;
Un S, si le lemme ajouté est un sujet
Un V, si le lemme ajouté est un verbe
Un A, si le lemme ajouté est un adjectif

Sur l’image ci-dessous, le groupe sémantique « Alimentation et vie pratique » contient une entrée « Bain ». Cette entrée « Bain » contient par exemple le verbe « baigner », le mot « bain » suivi de « (*) » et le mot bain suivi de « (2) ».

Tout en bas de cette image, la case « Visible » est cochée. Si cette case est décochée, tous les mots contenus dans « Bain » seraient provisoirement masqués. Celle-ci permet de mettre un peu d’ordre et de voir plus clair dans cette longue liste.

Scénarios et ambiguïté

L’outil de scénario de Tropes permet aussi de résoudre des ambiguïtés. Par exemple, prenons le mot « Opéra », celui-ci peut aussi bien désigner une pâtisserie que le lieu ou l’art. Imaginons que vous soyez un féru de pâtisserie, vous ne voulez donc pas que Tropes mettent toujours le terme « Opéra » contenu dans vos textes sous « Art et culture ». Dans ce cas, vous pouvez ajouter le mot « Opéra » dans la classe « Culinaire », celui-ci sera donc toujours associé à cette classe, peu importe le texte que vous traitez.

Attention : Vous ne pouvez pas insérer le même mot dans deux groupes différents !

Informations importantes concernant l’entrée de mots dans les scénarios

Lorsque vous entrez un substantif au singulier, le pluriel est aussi pris en compte. Si vous entrez un mot au pluriel, il ne prendra pas en compte le mot au singulier.

Lorsque vous entrez un mot composé qui est inconnu par Tropes, il va être ajouté au dictionnaire. On peut par exemple vouloir que le prénom et le nom d’une personne soient regroupés afin de ne pas avoir deux entrées différentes. Dans ce cas, il est recommandé de mettre un « _ » entre les éléments de ce mot composé. Par exemple, si vous travaillez sur le livre d’Alphonse Daudet Tartarin de Tarascon, il est préférable d’entré son nom sous « Tartarin_de_Tarascon » afin que le logiciel n’identifie plus « Tarascon » comme une ville, mais comme le nom du personnage principal.

Extraction terminologique

L’extracteur terminologique est un outil précieux lorsque vous créez vos propres scénarios. En effet, celui-ci va repérer toutes les expressions et mots composés pertinents. Il va aussi repérer les mots qui n’apparaissent pas du tout dans les scénarios existants. Il va donc vous permettre d’enrichir vos scénarios bien plus rapidement que si vous ajoutiez les termes un par un.

L’image ci-dessous est l’affichage type de l’extracteur terminologique.

Chaque expression a un groupe d’appartenance (par exemple, « air_affolé » appartient au groupe « air ») et est précédée d’un petit carré qui indique sa fréquence d’occurrence (plus le carré est bleu, plus l’expression est répétée).

L’extracteur terminologique est équipé d’une fonction de localisation afin de pouvoir insérer automatiquement les différents termes dans un scénario. Cet outil n’est pas forcément adéquat à cause de la polysémie des mots.

Par exemple, si l’on veut insérer dans notre scénario tous les mots du groupe « air », ceux-ci vont être insérés dans Agriculture et environnement > Air et atmosphère > Air. Si l’on observe correctement les différents mots composés contenus dans la liste de l’extracteur, le mot « air » peut effectivement se référer à l’atmosphère (« air frais », « air chaud » etc…), mais aussi à l’expression d’une personne (« air ébahi », « air incrédule » etc…). Si vous ne voulez pas que tous ces termes se retrouvent dans le même groupe, il faut décocher les cases contenues dans l'encadrer « Localiser ».

Options de l’extracteur terminologique

Cet outil va vous permettre de faire une recherche plus fine. Vous pouvez par exemple n’afficher que les mots qui ne sont pas classés, c’est-à-dire les termes inconnus du logiciel.

Vous pouvez aussi filtrer les termes significatifs etc… Afin de relancer la recherche faite par l’extracteur, vous devez appuyer sur le bouton « Rétablir ».

L’outil “Délimiteur”

Il s’agit d’un outil permettant de faire une segmentation automatique du document. Il permet par exemple d’isoler automatiquement les chapitres d’un livre, les propos d’un personnage dans un dialogue, etc.

Dans le cas d'un dialogue d'une pièce de théâtre par exemple, les noms des locuteurs peuvent être utilisés comme délimiteur. Dans ce cas, il sera possible d'isoler les paroles d'un ou plusieurs personnages.

L’utilisation de délimiteurs nécessite la plupart du temps un codage préalable. Il s’agit d’introduire dans le texte des codes/mots clés qui pourront servir de délimiteur. Par exemple, en ajoutant “intro” au début du texte, puis “chap1” au début du premier chapitre, etc. Ces codes permettront de définir les délimiteurs et donc de découper le texte.

Ce codage se fait dans le texte avant qu’il soit importé dans Tropes.

Pour accéder aux délimiteurs, il faut aller dans "Outils", et sélectionner "Délimiteur". Une fenêtre pour les délimiteurs est alors ouverte.

En cliquant sur fichier il est possible d'utiliser un fichier délimiteur si un fichier existe. Il est également possible de créer un fichier délimiteur en cliquant sur "nouveau".

Création d'un délimiteur

Après avoir cliquer sur "fichier" et "nouveau", une fenêtre vide est sous vos yeux.

Il faut entrer le code d'un délimiteur dans la petite zone de texte et cliquer sur "ajouter" pour "créer" le délimiteur. Il faut recommencer l'expérience avec tous les codes que l'on souhaite utiliser comme délimiteurs.

Il faut ensuite sauvegarder ce nouveau fichier délimiteur.

Utilisation des délimiteurs

Dans "fichier", il faut ouvrir le fichier délimiteur que l'on souhaite utiliser. Il y a ensuite la liste des délimiteurs dans la grande zone de texte. Il est possible de cocher/décocher chaque délimiteur.

Lorsqu'un délimiteur est coché et que l'utilisateur clique sur appliqué, tout le texte qui suit ce délimiteur est caché.

Etapes de travail de Tropes

Découpage propositionnel

Le logiciel va découper le texte en phrases simples (un seul verbe).

Pour réaliser ce découpage, le logiciel va se servir de la levée d’ambiguïté et de fonctions d’analyses de la syntaxe des phrases et de la ponctuation.

Ce découpage va par exemple permettre au logiciel de repérer les relations entre les mots. Ces statistiques se basent sur le fait que deux mots qui se trouvent dans la même proposition sont forcément étroitement liés.

La levée d’ambiguïté

En français, les ambiguïtés sont extrêmement nombreuses. Tropes permet de les résoudre (en grande partie).

Par exemple, Tropes va résoudre des ambiguïtés grammaticales et syntaxiques. Par exemple, Tropes va pouvoir deviner la classe grammaticale du mot « brise » dans deux contextes différents :

Dans la phrase « une brise légère s’installait sur Genève», Tropes va deviner que le mot « brise » est un nom commun,
Dans la phrase « L’homme brise la vitre », Tropes va deviner que le mot « brise » est un verbe.

Tropes va aussi résoudre des ambiguïtés sémantiques (par exemple, le mot « avocat » peut se référer à un fruit, mais aussi à un métier).

Tropes arrive à résoudre un grand nombre d’ambiguïtés, mais pas toutes. Son taux d’erreur reste faible.

Catégorisation des mots

Tropes va regrouper les mots d'un texte dans des catégories lexicales. Pour faire cette catégorisation, Tropes se base sur des dictionnaires qui sont régulièrement mis à jour. Il va séparer les mots dans six grandes catégories :

Les verbes
- Factifs = verbes exprimant des actions ("marcher", "tuer" etc...)
- Statifs = verbes exprimant des états ("demeurer", "rester" etc...)
- Déclaratifs = verbes exprimant une déclaration sur quelque chose ("dire", "penser", "croire" etc...)
- Performatifs = verbes exprimant un acte par le langage ("promettre", "demander" etc...)

Les connecteurs
- Conjonctions de coordination (mais, où, et, donc, or, ni, car)
- Conjonctions de subordination (exemple: comme, lorsque, quand, quoique, si etc...)
- Locutions conjonctives (exemple: au cas où, ou bien, ainsi que etc...)

Les modalisations
- Adverbes
- Locutions adverbiales

Les adjectifs qualificatifs et les nombres

Les pronoms personnels

Les substantifs et les noms propres

Analyses statistiques

Tropes va effectuer de nombreuses analyses statistiques afin de pouvoir construire, par exemple, les graphes que nous avons vus plus haut et les divers résultats.

Statistiques sur la fréquence globale d'apparition des diverses catégories de mots

Les catégories de mots sont considérées comme significatives si leur fréquence d’apparition est supérieure à la moyenne. Les résultats sont créés en comparant les statistiques de répartition des catégories du texte analysé d’une part et des normes de production langagière d’autre part.

Analyse Propositionnelle du Discours (APD) et Analyse Cognitivo-Discursive (ACD)

Le logiciel Tropes utilise activement deux analyses de Rodolphe Ghiglione. La première, l’Analyse Propositionnelle du Discours sert à éliminer des biais d’analyses de contenus. Pour ce faire, l’APD va s’appuyer sur le travail que Tropes aura fait auparavant, c’est-à-dire le découpage du texte en propositions grammaticales, la catégorisation des mots, le tri en classes d’équivalents etc…

La deuxième analyse de Rodolphe Ghiglione utilisée par Tropes est l’Analyse Cognitivo-Discursive. Celle-ci est considérée comme une extension de l’APD, car elle la complète. L’ACD va prendre en compte des aspects psycholinguistiques que l’APD ne traitait pas. Celle-ci va permettre de ne prendre en compte que les propositions importantes contenues dans un texte, en excluant toutes les propositions « inutiles ». Pour faire ce travail, l’ACD s’appuie sur un ensemble de règles.

Cette analyse s’intéresse aux propositions dites « remarquables », c’est-à-dire des propositions qui vont introduire des thèmes, des personnages principaux ou des évènements cruciaux pour l’avancée de l’histoire. Cette analyse va permettre d’attribuer un score à chacune des propositions contenues dans le texte analysé. Ce score va donc être calculé en fonction de son poids relatif, de son ordre d’arrivée et de son rôle argumentatif.

Les options

Il est possible dans Tropes de changer certaines options. Pour ce faire, il faut aller dans "Outils" puis "Options générales" ou "Options d'analyse".

Options générales

Dans les options générales, il est possible de paramétrer l'affichage des résultats comme par exemple l'affichage de l'aide, l'affichage en gros caractères, etc.

Il est possible de modifier le type d'installation avec l'onglet "Installation".

Il est également possible d'aller dans l'onglet "Scénario" qui permet divers réglages tels que la désactivation des messages d'avertissement lors des suppressions, de choisir le critère de tri du scénario, etc.

Options d'analyse

Il est possible d'agir sur le moteur d'analyse du logiciel à partir de cette fenêtre.

Il est possible d'agir sur le seuil de détection des classes, de décider sur quelle chose on désire établir les relations (références utilisées, scénario, etc.)

Dans l'onglet "Conversions" il est possible de paramétrer les filtres de lecture des formats Words et PDF.

Impression

Il est possible d'imprimer les résultats obtenus. Pour ce faire, aller dans "fichiers" et "imprimer". Une fenêtre s'ouvre et il est possible de choisir ce que l'on désire imprimer, la police, la couleur, etc.

Références

Manuel d'utilisation de Tropes v8.4 : http://tropes.fr/ManuelDeTropesV840.pdf

Téléchargement de Tropes v8.4: http://tropes.fr/download.htm

« Tropes » : différence entre les versions