Taporware

De EduTech Wiki
Aller à la navigation Aller à la recherche

Introduction

Taporware 2.0est un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.

Fonctionnalités

Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.

Outil HTML Outil XML Outil texte brut
Co-occurrence Co-occurrence Co-occurrence
Collocation Collocation Collocation
Comparator Comparator Comparator
Concordance Concordance Concordance
Date finder Date finder Date finder
Distribution Distribution Distribution
Extract text Extract text
Fixed phrase Fixed phrase Fixed phrase
Hypergraph
Link Extractor
List HTML tags
List Words List Words List Words
List XML elements
Speech Tagger
Summarizer Summarizer Summarizer
Tokenize Tokenize Tokenize
Transformer
Autres Outils
  • Aggregator
  • Raining Words
  • Raw Grep
  • Tagger
  • Weighted Centroid
Outils Bêta
  • Acronym Finder
  • CAPs Finder
  • Compare with Control
  • Get TEI Meta Data
  • HTML Text Extractor
  • Keywords Finder
  • List Word Pairs
  • Principal Components Analysis
  • Tool Bar
  • Word Brush
  • Web Page Cleaner
  • Word Cloud

Fonctionnalité propres aux outils HTML

Extract Text (HTML)

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:

Garretv0 extract text.png

Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html

Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".

Garretv0 extract text result.png

Link Extractor

La fonctionnalité Link Extractor permet de lister tous les liens présents dans une page HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.

List HTML tags

La fonctionnalité List HTML tags permet de compter le nombre de fois qu'apparaissent les différentes balises présentes dans le document HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.

Fonctionnalité propres aux outils XML

Extract Text (XML)

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise XML particulière. Il est possible de choisir une balise ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document HTML par une URL où de l'importer.

Hypergraph

La fonctionnalité Hypergraph permet d'afficher la structure d'un document XML avec des arbres hyperboliques. Il est possible de spécifier le document XML par une URL où de l'importer.

10/11/2014: Cette fonctionnalité ne semble pas fonctionner et nous affiche les messages d'erreurs suivants:

"could not find file /~taporware/cgi-bin/prototype/temp/interact2.XML Start applet with default graph"

"could not find propertyfile /~taporware/cgi-bin/prototype/temp/taporware.prop. Start applet with default properties"

List XML elements

La fonctionnalité List XML elements permet de lister toutes les balises d'un document XML. Cette fonctionnalité compte le nombre de fois qu'apparaissent les différentes balises présentes dans le document, le nombre moyen de mots contenus dans une balise, et liste les attributs propres à chaque balise. Il est possible de spécifier le document XML par une URL où de l'importer.

Transformer

La fonctionnalité Transformer permet de transformer un document XML à l'aide d'un fichier XSL en un document HTML. Il est possible de spécifier le document XML et le fichier XSL par une URL où de les importer.

Fonctionnalité propres aux outils texte brut

Speech Tagger

La fonctionnalité Speech Tagger permet de mettre en évidence avec de la couleur des mots du document texte brut. L'utilisateur choisit la couleur pour chaque tag qu'il veut mettre en évidence. L'utilisateur peut mettre en évidence les conjonctions, les déterminants, les mots étrangers, les adjectifs, les verbes, les "prédeterminer" (all, rather, such...), les pronoms, les particules, les to, les nombres cardinaux, les phrases existentielles ("there is..."), les préposition, les marqueurs d'éléments des listes, les nom, les terminaisons possessives, les adverbes, les symbole et les interjections. Il est possible de spécifier le document sous format de texte brut par une URL où de l'importer.

Fonctionnalité communes aux outils HTML, XML et texte brut

Co-occurrence

La fonctionnalité Co-occurrence permet de chercher deux mots dans le texte s'ils se trouvent à une certaine distance précisée soit en mots, soit en lignes, soit en phrases ou soit en paragraphes et de les mettre en contexte dépendamment de l'option de distance choisie. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Collocation

La fonctionnalité Collocation permet de lister les mots se trouvant autour d'un mot spécifique. Cette distance peut être précisée soit en mots, soit en lignes, soit en phrases ou soit en paragraphes (pour l'outil HTML et texte brut). Il est possible de spécifier le document par une URL où de l'importer.

Comparator

La fonctionnalité Comparator permet de comparer deux textes. Cela nous donne des informations générales des deux textes comme le nombre de mots, le nombre de mots uniques etc. Ensuite tous les mots des deux textes sont comptés et classés en trois tableaux: Ceux qui sont présents dans les deux textes, ceux qui sont uniquement présents dans le texte 1 et ceux qui sont uniquement présents dans le texte 2. Il est possible de spécifier les documents par une URL où de les importer.

Concordance

La fonctionnalité Concordance permet de chercher un mot ou un pattern en particulier et de le mettre en contexte avec le contenu du document. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Date finder

La fonctionnalité Date finder permet d'extraire toutes les dates d'un document. Ces dates peuvent être des années, des mois, des jours de la semaine, des saison ou encore le nom de vacances américaines. L'utilisateur peut spécifier une date précise à rechercher. Il faut tout de même garder à l'esprit que cet outil est en anglais et que par conséquent il ne détecte que les dates mises en anglais. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Distribution

La fonctionnalité Distribution permet de montrer la distribution d'un mot particulier dans un texte, c'est-à-dire où est-ce qu'il apparait. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Fixed phrase

La fonctionnalité Fixed phrase permet de trouver si un mot spécifique est plusieurs fois suivit ou précédé de certaines suites de mots et de dire combien de fois c'est le cas. Par exemple si on choisit le mot "work" et que ce mots apparait deux fois précédé de "he continued to" (he continued to Work) alors ceci sera détecté. Il est possible de spécifier le document par une URL où de l'importer.

List Words

La fonctionnalité List Words permet de compter la fréquence des mots dans un document selon certains critères. On recherche soit tous les mots, soit des mots répondant à certains expressions régulières, soit des mots en particuliers ou soit encore tous les mots sauf certains spécifiés dans une stop list. Nous pouvons choisir la stop list par défaut ou en créer une. Il est possible de choisir une balise (Pour l'outil HTML et XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Summarizer

La fonctionnalité Summarizer permet de créer un résumé d'un document concernant un nombre prédéfini de mots les plus fréquents du document. On y calcule leur fréquence, on affiche les phrases contenant ces mots, le test de concordance, le test de collocation et leur distribution dans les balises (Pour l'outil HTML et XML). Il est possible de choisir une balise (Pour l'outil HTML et XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Tokenize

La fonctionnalité Tokenize permet de séparer le texte d'un document par "tokens" particulier. Les "tokens" peuvent être des mots, des lignes, des phrases, des paragraphes, des caractères particuliers, des paterns ou encore des balises (Pour l'outil XML). Il est possible de spécifier le document par une URL où de l'importer.

Autres outils

Aggregator

La fonctionnalité Aggregator permet de fusionner des documents à la suite en un seul document. Il est possible de spécifier les document par une URL où de les importer. Cependant si on choisit de les importer alors il n'est possible d'importer que deux documents.

Raining Words

La fonctionnalité Raining Words permet de générer une liste des 20 mots les plus fréquents d'un document et de les afficher dans une applet Java qui en fait un espèce de word Cloud utilisant la taille de police et la couleur pour montrer la fréquence des mots. Il est uniquement possible de spécifier le document par une URL.

Raw Grep

La fonctionnalité Raw Grep permet de chercher tous les mots contenant la suite de texte spécifiée et de le mettre en contexte avec le contenu du document. Par exemple si on décide que la suite de texte est "work" alors "handywork" et "working" seront détectés. Il est possible de spécifier le document par une URL où de l'importer.

Tagger

La fonctionnalité Tagger permet de mettre en évidence les termes que l'on a précisé d'un document XML. Il est possible de choisir une balise XML ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

10/11/2014: Cette fonctionnalité ne semble pas fonctionner.

Weighted Centroid

La fonctionnalité Weighted Centroid permet de montrer la distribution des mots les plus fréquents d'un document dans un graphique. Il est possible de spécifier le document par une URL où de l'importer.

Outils Bêta

Acronym Finder

La fonctionnalité Acronym Finder permet d'extraire les acronymes d'un document. Il est possible de spécifier le document par une URL où de l'importer.

CAPs Finder

La fonctionnalité CAPs Finder permet d'extraire tous les mots contenant des majuscules. Il est possible de spécifier le document par une URL où de l'importer.

Compare with Control

La fonctionnalité Compare with Control permet de comparer une liste de mots dans un document avec un corpus. On recherche soit tous les mots, soit tous les mots sauf certains spécifiés dans une stop list prédéfinie. Il est possible de spécifier le document par une URL où de l'importer. Il est possible d'importer un corpus ou d'utiliser celui qui est proposé (brown corpus).

Get TEI Meta Data

La fonctionnalité Get TEI Meta Data Permet d'extraire les métadonnées d'un document. Il est possible de spécifier le document par une URL où de l'importer.

HTML Text Extractor

La fonctionnalité HTML Text Extractor permet d'extraire des parties d'un document HTML contenues dans une balise avec un attribut ayant une valeur particulière tout en gardant sa mise en forme du document original. En somme, cela permet d'afficher une partie de la page et de rendre le reste invisible. Il est possible de spécifier le document par une URL où de l'importer.

Keywords Finder

La fonctionnalité Keywords Finder permet d'extraire les mots clés d'un document. Il est possible de spécifier le document par une URL où de l'importer.

10/11/2014: Cette fonctionnalité ne semble pas fonctionner.

List Word Pairs

La fonctionnalité List Word Pairs permet de compter la fréquence de pairs de mots apparaissant dans un document (donc deux mots à la suite). Il est possible de spécifier le document par une URL où de l'importer.

Principal Components Analysis

La fonctionnalité Principal Components Analysis permet de générer les relations entre les mots les plus fréquents. Il est possible de spécifier le document par une URL où de l'importer.

Tool Bar

La fonctionnalité Tool Bar nous permet de faire des tests de quelques fonctionnalités déjà énoncées avec une barre d'outil.

Word Brush

La fonctionnalité Word Brush permet de peindre avec les mots extraits d'un document HTML. Il est uniquement possible de spécifier le document par une URL.

Web Page Cleaner

La fonctionnalité Web Page Cleaner permet d'enlever toutes les balises d'un document HTML ou de convertir tout le document HTML en texte brut. Il est possible de spécifier le document par une URL où de l'importer.

Word Cloud

La fonctionnalité Word Cloud permet de faire un Word Cloud avec les mots les plus fréquents d'un document. Il est possible de spécifier le document par une URL où de l'importer.

Tutoriel

Introduction

Pour vous montrer plus en détail les fonctionnalités Taporware et voir ce qu'on peut tirer des résultats obtenus par les différentes analyses je vais faire quelques analyses du livre Candide écrit par Voltaire. Ce livre est disponible gratuitement ici. Le site lirenligne.net regroupe des œuvres littéraires libres de droits. Cette analyse sera effectuée en parallèle avec Arnaud qui lui utilisera l'outil Voyant Tools. Voyant Tools permet également de faire des analyses de textes sur des documents. Cependant celui-ci permet également d'analyser des documents au formats PDF et DOC contrairement à Taporware. Il permet de faire des fonctionnalités à peu près similaires mais avec des affichages un peu différents. Nous montrerons ici ce qu'il est possible de faire avec Taporware.

Phase de préparation

Phase d'analyse

Remarques

Il est possible d'insérer une barre d'outil Taporware dans nos site pour ainsi pouvoir utiliser les fonctionnalités principales de cet outil sur nos sites. Il nous est indiqué comment insérer cette barre d'outil sur ce lien: http://taporware.ualberta.ca/~taporware/addTool.shtml

Il est possible que certaines fonctionnalités ne fonctionnent pas si notre navigateur bloque les fenêtres pop-up. Les applet Java peuvent ne pas fonctionner dépendamment de notre version de Java.

Analyser des pages provenant du Wiki ne fonctionne pas en lui donnant l'URL. Il faut enregistrer la page sur notre ordinateur puis choisir l'option pour importer le document pour que cela fonctionne.