« Tropes » : différence entre les versions
Ligne 39 : | Ligne 39 : | ||
===Définition de termes importants=== | ===Définition de termes importants=== | ||
*''' | *'''Classes d’équivalents''' : regroupent les termes selon s’ils font partie de même famille, synonyme,etc. | ||
**exemple corps qui comprend :cheveux, front, épaules, etc. | **exemple corps qui comprend :cheveux, front, épaules, etc. | ||
*'''Actants''': classes | *'''Actants''': classes d’équivalents qui se trouvent avant le verbe et sont souvent son sujet | ||
*'''Actés''': classes | *'''Actés''': classes d’équivalents qui se trouvent après le verbe et ne sont pas le sujet de ce dernier (habituellement) | ||
==L’analyse de texte== | ==L’analyse de texte== |
Version du 10 novembre 2014 à 17:57
Informations générales
Le logiciel Tropes est un logiciel de texte mining ou aussi d’analyse sémantique. Ce logiciel a été créé en 1994 et ne fonctionne que sous Windows.
Ce logiciel permet de déterminer, au sein d’un ou plusieurs textes, qui sont les acteurs principaux, quelles sont les relations qui les lient, etc… Il va également faire ressortir le sens global du texte.
Actuellement, la dernière version disponible de Tropes est la version V8.4.2. Ce logiciel est gratuit et disponible en anglais ou en français Vous pouvez télécharger le logiciel sur le site officiel de Tropes : http://www.tropes.fr/download.htm .
Prise en main
Formats utilisables
Il est conseillé d’utiliser le format .txt ou .html. Voici cependant la liste des formats pris en charge :
Ouvrir des fichiers dans Tropes
Il est possible d’ouvrir soit des fichiers soit des dossier sur Tropes :
- Fichier > Ouvrir et sélectionner le ou les fichiers à analyser
- Fichier > Dossier > Ouvrir un dossier
Cette deuxième option permet d’ouvrir tous les fichiers contenus dans un dossier.
L’onglet “fichier”
Il contient le fichier ou la liste de fichier (si un dossier a été ouvert). Il y a plusieurs options :
- Analyser : pour lancer l’analyse du ou des fichiers
- Editer : ouvre une fenêtre pour éditer le texte et le ré-enregistrer
- Effacer : pour supprimer le fichier de la liste
- Ajouter : pour ajouter un fichier dans la liste des fichiers à analyser
- Trier : trier le fichier pas titre
Analyse de plusieurs fichiers
Lorsqu’un dossier a été ouvert et qu’une analyse est lancée, l’écran contient ensuite un texte composé des contenus de tous les fichiers qui ont été analysés. Si la liste se compose des divers chapitres d’un livre, le texte qui sort de l’analyse est le texte complet de l’oeuvre. Lorsque le texte est parcouru, il y a une indication du titre du texte qui est affiché au sommet de l’écran. L'utilisateur peut identifier d’où vient le texte qu’il a sous les yeux.
Définition de termes importants
- Classes d’équivalents : regroupent les termes selon s’ils font partie de même famille, synonyme,etc.
- exemple corps qui comprend :cheveux, front, épaules, etc.
- Actants: classes d’équivalents qui se trouvent avant le verbe et sont souvent son sujet
- Actés: classes d’équivalents qui se trouvent après le verbe et ne sont pas le sujet de ce dernier (habituellement)
L’analyse de texte
Une fois un fichier ouvert, il est analysé et en ensemble de résultats est disponible. Cet ensemble comprend : le style, l’univers de référence, les références utilisées, le scénario, les relation, les catégories fréquents, toutes les catégories, chacune des catégories et les épisodes.
Les résultats sont disponibles dans une zone en haut à gauche de l’écran :
En cliquant dans la liste des résultats possibles, les résultats apparaissent dans la zone en dessous de la zone des résultats.
En cliquant sur les différents résultats, la zone centrale va afficher les propositions qui constituent ce résultat.
Dans la marge à gauche, il y a un rond blanc et bleu qui permet d’afficher le contexte de la proposition qui a été mise en valeur.
Style
Tropes fait un diagnostic du style du texte et de la mise en scène verbale en fonction des indicateurs statistiques qu’il récupère durant l’analyse. Il y a 4 styles possibles :
Il y a également 4 mises en scènes possibles :
En cliquant dans la zone des résultats sur une des lignes qui sont présentes, tous les mots qui ont été pris en compte pour établir le style/la mise en scène apparaisse dans la zone centrale en couleur. L’analyse est statistique ce qui implique qu’elle n’est fiable que si le texte est long.
Univers de référence
L’univers de référence correspond au contexte global du texte. Il s’agit d’une fonction qui affiche dans un ordre décroissant les Univers de référence des mots du texte. Les univers de référence regroupent dans des classes d’équivalents les principaux mots du texte qui a été analysé. Il y a deux niveaux d’univers de référence : 1 et 2. En cliquant sur une classe d’équivalent, les divers termes qui la composent sont affichés dans la zone centrale
Références utilisées
Il s’agit d’une fonction qui affiche les substantifs utilisés dans le texte regroupés en classe d’équivalent et organiser selon leur fréquence dans un ordre décroissant, c’est à dire la plus haute fréquence en premier. Chaque ligne contient le nombre d’occurence du terme et le terme. En cliquant sur une ligne, le contenu de la classe apparaît dans l’écran central. Les mots qui composent la classe apparaissent en bleu.
Scénario
Il s’agit de classifications hiérarchiques qui permettent de structurer l'information selon la stratégie d'analyse que l’on souhaite utiliser. Pour faire une analyse efficace du texte, il faudrait établir soit même son scénario à l’aide de l’outil scénario.
Relations
Il s’agit d’une fonction qui affiche les relation de co-ocurrence entre les classes d’équivalent. Elle les affiche triées par fréquence décroissante. Chaque ligne contient le nombre d’occurences et la relation
Catégories fréquentes
Cette fonction affiche les catégories de mots les plus fréquentes
Toutes les catégories
Il s’agit d’une fonction qui affiche toutes les catégories des mots qui composent le texte analysé. Les lignes sont composées d’une catégorie, de sa répartition dans la catégorie générale en pourcentage et du nombre d’occurence qui a été trouvé.
Episodes et rafales
Une rafale regroupe des termes qui arrivent souvent dans une partie limitée du texte mais pas sur l’ensemble du texte.
Un épisode est une partie du texte dans lequel il y a un certain nombre de rafales se sont formées puis arrêtées. Il s’agit en fait de blocs d’argumentation qui représente la structure du discours observé.
Grâche à ces deux notions, il est possible d’étudier la chonologie du discours.
Graphes
Il existe 5 types de graphes. Le graphe d’acteur, d’aires et le graphe étoilés sert à représenter les relations entre les classes d’équivalent. Le graphe de répartitions et d’épisodes concerne la chronologie du texte. Pour afficher les graphes il faut les sélectionner dans la barre d’outils en haut à gauche
Graphes acteurs
Ce graphe permet de représenté la relation entre les différents acteurs et actés dans la totalité du texte qui a été analysé. Il y a deux axes : l’axe des X représente le taux actant/acté, à droite se trouve les actants ayant le plus de poids et à gauche les actés avec le moins de poids l’axe des Y représente la concentration des relations, en haut se trouve le terme qui ont beaucoup de relation et en bas peu de relation
Les actants sont représentés par des bulles bleus et les actés par des bulles vertes. Dans la zone au dessus du graphe, il y a la liste des propositions où le terme sélectionné apparaît. En positionnant la souris sur chaque bulle, nous voyons apparaître les relations de cette bulle. En cliquant sur le fond du graphe, toutes les relations apparaissent.
Il est possible de faire apparaitre plus ou moins de relation. C’est à dire d’augmenter ou de diminuer le nombre de bulles (termes) qui apparaissent. Pour se faire, il faut utiliser le curseur à droite du graphe.
Graphes aires
Les graphes des aires permet de représenter toutes les références sous formes de sphère. En cliquant sur un teme dans la liste des références utilisées, le graphe des aires de cette référence apparait.
La surface des sphères dans le graphe est proportionnelle au nombre d’occurences du mot.
Le graphe est produit pour chaque référence, ci-dessus nous voyons le graphe de la référence “bovary”. Autour de cette référence se trouvent les termes qui ont une relation avec “bovary”. Les termes les plus proches de l'occurrence sont ceux qui lui sont associés le plus souvent. Les éléments qui se trouvent à gauche sont ceux qui précèdent “bovary” dans leur apparition et les termes à droite sont ceux qui le suivent. Le curseur à droit permet d’augmenter ou diminuer le nombre d’éléments qui seront affichés.
Graphes étoilés
Il affiche les relations entre les classes d’équivalents (références utilisées, relations, …) ou entre une catégorie de mots et des classes d’équivalents.
Dans l’exemple ci dessus, le terme “bovary” a été selectionné dans les Références utilisées. Nous voyons à droite les termes qui précedent “bovary” et le nombre de fois qu’il apparait dans cette relation et à droite les temes qui succèdent à “bovary” ainsi que le nombre de fois où cette relation à lieu. Une même référence peut apparaitre avant et après le terme sélectionné, dans ce cas elle apparaît à gauche et à droite. Dans la zone au dessus du graphe, il y a la liste des propositions où le terme sélectionné apparaît.
Graphes répartitions
Il permet d’affiche un histogramme de répartition chronologique d’une classe d’équivalents, d’une relation, d’une catégorie de mot (ex: verbe, adjectif, etc.) Exemple : verbe “être”
Le graphe permet de savoir quand le terme apparaît dans le texte. Il permet de savoir si le terme est souvent présent, quand il est le plus ou le moins présent. Le graphe est chronologique c’est dire qu’il se lit de gauche (début du texte) à droite (fin du texte). La barre en pointillés indique la taille moyenne des barres. Si le graphe est fait à partir d’une relation, il montrera la fréquence de l’apparition combinée des termes constituant la relation La zone au dessus du graphe contient toutes les apparitions du terme sélectionné, dans notre cas “être”. En cliquant sur une des barres, la proposition concernée par la barre est mise en valeur dans la zone au dessus du graphe. Le curseur sur la droite permet de faire varier le nombre de barre de l’histogramme affiché.
Graphes épisodes
Ce graphe s’affiche quand les épisodes sont utilisés. Il affiche les épisodes et les raphales. Les lignes en pointillées représentent les rafales et indiquent la longuer de la rafale et sa position en fonction du début du texte. Il y a un ordre chronologique : la gauche est le début du texte et la droite la fin. Les épisodes sont affichés sous la forme de cadres en pointillés. Ils ont également un ordre chronologique. Lorsqu’un épisode est sélectionné, les rafales contenues dans ce dernier sont affichées en couleur.
Quand l’utilisateur clique sur une rafale, la proposition qui la contient est affichée dans la zone au dessus du graphe. Tropes supprime les rafales les moins significatives s’il n’y a pas assez de place pour tout affiché.
Outils proposés par Tropes
Outils scénario
FORMAT VIDEO
Dans la liste des résultats, on peut voir qu’il y a une entrée « Scénario ». Cette analyse est faite suivant des scénarios définis par le logiciel lui-même. Tropes permet aussi à l’utilisateur de créer ses propres scénarios. Cela peut par exemple servir à faire une analyse plus personnelle et plus poussée d’un texte. Prenons un exemple concret. Ici, nous avons deux romans d’Harry Potter. Pour s’intéresser aux scénarios, il faut commencer par ouvrir l’outil de scénario en cliquant sur « Outil » > « Outil Scénario ». Imaginons que vous voulez faire une étude sur les différents sortilèges. Si on tape « sortilège » dans la barre de recherche, on remarque qu’il y a déjà une entrée « Sortilège », mais qui ne comprend que les occurrences du mot « sortilège ». Ceci est normal, Tropes n’est pas un expert dans la sorcellerie du monde d’Harry Potter. Nous voulons par exemple différencier les sortilèges agressifs des sortilèges inoffensifs. Pour ce faire, nous allons
Classe d’équivalents et groupes sémantiques
Lorsqu’une entrée d’un groupe sémantique fait référence à une classe d’équivalents, divers mots sont regroupés dedans. Ces différents items sont suivis d’une note entre parenthèses. Par exemple :
- Un astérisque (*), si cet item contient une Référence utilisée ;
- Le nombre 1 ou le nombre 2, si cet item contient un des deux Univers de références ;
- Un S, si le lemme ajouté est un sujet
- Un V, si le lemme ajouté est un verbe
- Un A, si le lemme ajouté est un adjectif
Sur l’image ci-dessous, le groupe sémantique « Alimentation et vie pratique » contient une entrée « Bain ». Cette entrée « Bain » contient par exemple le verbe « baigner », le mot « bain » suivi de « (*) » et le mot bain suivi de « (2) ». Tout en bas de cette image, la case « Visible » est cochée. Si cette case est décochée, tous les mots contenus dans « Bain » seraient provisoirement masqués. Celle-ci permet de mettre un peu d’ordre et de voir plus clair dans cette longue liste.
Scénarios et ambiguïté
L’outil de scénario de Tropes permet aussi de résoudre des ambiguïtés. Par exemple, prenons le mot « Opéra », celui-ci peut aussi bien désigner une pâtisserie que le lieu ou l’art. Imaginons que vous soyez un féru de pâtisserie, vous ne voulez donc pas que Tropes mettent toujours le terme « Opéra » contenu dans vos textes sous « Art et culture ». Dans ce cas, vous pouvez ajouter le mot « Opéra » dans la classe « Culinaire », celui-ci sera donc toujours associé à cette classe, peu importe le texte que vous traitez. Attention : Vous ne pouvez pas insérer le même mot dans deux groupes différents !
Informations importantes concernant l’entrée de mots dans les scénarios
Lorsque vous entrez un substantif au singulier, le pluriel est aussi pris en compte. Si vous entrez un mot au pluriel, il ne prendra pas en compte le mot au singulier. Lorsque vous entrez un mot composé qui est inconnu par Tropes, il va être ajouté au dictionnaire. On peut par exemple vouloir que le prénom et le nom d’une personne soient regroupés afin de ne pas avoir deux entrées différentes. Dans ce cas, il est recommandé de mettre un « _ » entre les éléments de ce mot composé. Par exemple, si vous travaillez sur le livre d’Alphonse Daudet Tartarin de Tarascon, il est préférable d’entré son nom sous « Tartarin_de_Tarascon » afin que le logiciel n’identifie plus « Tarascon » comme une ville, mais comme le nom du personnage principal.
Extraction terminologique
L’extracteur terminologique est un outil précieux lorsque vous créez vos propres scénarios. En effet, celui-ci va repérer toutes les expressions et mots composés pertinents. Il va aussi repérer les mots qui n’apparaissent pas du tout dans les scénarios existants. Il va donc vous permettre d’enrichir vos scénarios bien plus rapidement que si vous ajoutiez les termes un par un. L’image ci-dessous est l’affichage type de l’extracteur terminologique.
Chaque expression a un groupe d’appartenance (par exemple, « air_affolé » appartient au groupe « air ») et est précédée d’un petit carré qui indique sa fréquence d’occurrence (plus le carré est bleu, plus l’expression est répétée).
L’extracteur terminologique est équipé d’une fonction de localisation afin de pouvoir insérer automatiquement les différents termes dans un scénario. Cet outil n’est pas forcément adéquat à cause de la polysémie des mots.
Par exemple, si l’on veut insérer dans notre scénario tous les mots du groupe « air », ceux-ci vont être insérés dans Agriculture et environnement > Air et atmosphère > Air. Si l’on observe correctement les différents mots composés contenus dans la liste de l’extracteur, le mot « air » peut effectivement se référer à l’atmosphère (« air frais », « air chaud » etc…), mais aussi à l’expression d’une personne (« air ébahi », « air incrédule » etc…). Si vous ne voulez pas que tous ces termes se retrouvent dans le même groupe, il faut décocher les cases contenues dans l'encadrer « Localiser ».
Options de l’extracteur terminologique
Cet outil va vous permettre de faire une recherche plus fine. Vous pouvez par exemple n’afficher que les mots qui ne sont pas classés, c’est-à-dire les termes inconnus du logiciel. Vous pouvez aussi filtrer les termes significatifs etc… Afin de relancer la recherche faite par l’extracteur, vous devez appuyer sur le bouton « Rétablir ».
L’outil “Délimiteur”
Il s’agit d’un outil permettant de faire une segmentation automatique du document. Il permet par exemple dans un texte d’isoler automatiquement les chapitres d’un livre, les propos d’un personnage dans un dialogue, etc.
L’utilisation de délimiteurs nécessite la plupart du temps un codage préalable. Il s’agit d’introduire dans le texte des codes/mots clés qui pourront servir de délimiteur. Par exemple, en ajoutant “intro” au début du texte, puis “chap1” au début du premier chapitre… Ces codes permettront de définir les délimiteurs c’est à dire de découper le texte. Ce codage ce fait dans le texte avant qu’il soit importer dans Tropes.
Etapes de travail de Tropes
Découpage propositionnel
Le logiciel va découper le texte en phrases simples (un seul verbe). Ce découpage va par exemple permettre au logiciel de repérer les relations entre les mots.
La levée d’ambiguïté
En français, les ambiguïtés sont extrêmement nombreuses. Tropes permet de les résoudre (en grande partie). Par exemple, Tropes va résoudre des ambiguïtés grammaticales et syntaxiques. Par exemple, Tropes va pouvoir deviner la classe grammaticale du mot « brise » dans deux contextes différents : - Dans la phrase « une brise légère s’installait sur Genève», Tropes va deviner que le mot « brise » est un nom commun, - Dans la phrase « L’homme brise la vitre », Tropes va deviner que le mot « brise » est un verbe. Tropes va aussi résoudre des ambiguïtés sémantiques (par exemple, le mot « avocat » peut se référer à un fruit, mais aussi à un métier). Tropes arrive à résoudre un grand nombre d’ambiguïtés, mais pas toutes. Son taux d’erreur reste faible.