Taporware

De EduTech Wiki
Aller à la navigation Aller à la recherche

Introduction

Taporwareest un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.

Fonctionnalités

Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.

Outil HTML Outil XML Outil texte brut
Co-occurrence Co-occurrence Co-occurrence
Collocation Collocation Collocation
Comparator Comparator Comparator
Concordance Concordance Concordance
Date finder Date finder Date finder
Distribution Distribution Distribution
Extract text Extract text
Fixed phrase Fixed phrase Fixed phrase
Hypergraph
Link Extractor
List HTML tags
List Words List Words List Words
List XML elements
Speech Tagger
Summarizer Summarizer Summarizer
Tokenize Tokenize Tokenize
Transformer
Autres Outils
  • Aggregator
  • Raining Words
  • Raw Grep
  • Tagger
  • Weighted Centroid
Outils Bêta
  • Acronym Finder
  • CAPs Finder
  • Compare with Control
  • Get TEI Meta Data
  • HTML Text Extractor
  • Keywords Finder
  • List Word Pairs
  • Principal Components Analysis
  • Tool Bar
  • Word Brush
  • Web Page Cleaner
  • Word Cloud

Fonctionnalité propres aux outils HTML

Extract Text(HTML)

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:

Garretv0 extract text.png

Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html

Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".

Garretv0 extract text result.png

Link Extractor

La fonctionnalité Link Extractor permet de lister tous les liens présents dans une page HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.

List HTML tags

La fonctionnalité List HTML tags permet de compter le nombre de fois qu'apparaissent les différentes balises présentes dans le document HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.

Fonctionnalité propres aux outils XML

Extract Text(XML)

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise XML particulière. Il est possible de choisir une balise ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document HTML par une URL où de l'importer.

Hypergraph

La fonctionnalité Hypergraph permet d'afficher la structure d'un document XML avec des arbres hyperboliques. Il est possible de spécifier le document XML par une URL où de l'importer. 19/11/2014: Cette fonctionnalité ne semble pas fonctionner et nous affiche les messages d'erreurs suivants:

"could not find file /~taporware/cgi-bin/prototype/temp/interact2.XML Start applet with default graph"

List XML elements

La fonctionnalité List XML elements permet de lister toutes les balises d'un document XML. Cette fonctionnalité compte le nombre de fois qu'apparaissent les différentes balises présentes dans le document, le nombre moyen de mots contenus dans une balise, et liste les attributs propres à chaque balise. Il est possible de spécifier le document XML par une URL où de l'importer.

Transformer

La fonctionnalité Transformer permet de transformer un document XML à l'aide d'un fichier XSL en un document HTML. Il est possible de spécifier le document XML et le fichier XSL par une URL où de les importer.

Fonctionnalité propres aux outils texte brut

Speech Tagger

La fonctionnalité Speech Tagger permet de mettre en évidence avec de la couleur des mots du document texte brut. L'utilisateur choisit la couleur pour chaque tag qu'il veut mettre en évidence. L'utilisateur peut mettre en évidence les conjonctions, les déterminants, les mots étrangers, les adjectifs, les verbes, les "prédeterminer" (all, rather, such...), les pronoms, les particules, les to, les nombres cardinaux, les phrases existentielles ("there is..."), les préposition, les marqueurs d'éléments des listes, les nom, les terminaisons possessives, les adverbes, les symbole et les interjections. Il est possible de spécifier le document sous format de texte brut par une URL où de l'importer.

"could not find propertyfile /~taporware/cgi-bin/prototype/temp/taporware.prop. Start applet with default properties"