« Taporware » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 70 : Ligne 70 :


[[Fichier:Garretv0_extract_text.png]]
[[Fichier:Garretv0_extract_text.png]]
Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: [http://taporware.ualberta.ca/einstein-bio.html http://taporware.ualberta.ca/einstein-bio.html]
Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: [http://taporware.ualberta.ca/einstein-bio.html http://taporware.ualberta.ca/einstein-bio.html]
Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".
Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".

Version du 11 novembre 2014 à 16:16

Introduction

Taporwareest un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.

Fonctionnalités

Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.

Outil HTML Outil XML Outil texte brut
Co-occurrence Co-occurrence Co-occurrence
Collocation Collocation Collocation
Comparator Comparator Comparator
Concordance Concordance Concordance
Date finder Date finder Date finder
Distribution Distribution Distribution
Extract text Extract text
Fixed phrase Fixed phrase Fixed phrase
Hypergraph
Link Extractor
List HTML tags
List Words List Words List Words
List XML elements
Speech Tagger
Summarizer Summarizer Summarizer
Tokenize Tokenize Tokenize
Transformer
Autres Outils
  • Aggregator
  • Raining Words
  • Raw Grep
  • Tagger
  • Weighted Centroid
Outils Bêta
  • Acronym Finder
  • CAPs Finder
  • Compare with Control
  • Get TEI Meta Data
  • HTML Text Extractor
  • Keywords Finder
  • List Word Pairs
  • Principal Components Analysis
  • Tool Bar
  • Word Brush
  • Web Page Cleaner
  • Word Cloud

Fonctionnalité propres aux outils HTML

Extract Text

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:

Garretv0 extract text.png

Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html

Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".