« Taporware » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 70 : | Ligne 70 : | ||
[[Fichier:Garretv0_extract_text.png]] | [[Fichier:Garretv0_extract_text.png]] | ||
Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: [http://taporware.ualberta.ca/einstein-bio.html http://taporware.ualberta.ca/einstein-bio.html] | |||
Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3". |
Version du 11 novembre 2014 à 17:15
Introduction
Taporwareest un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.
Fonctionnalités
Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.
Outil HTML | Outil XML | Outil texte brut |
---|---|---|
Co-occurrence | Co-occurrence | Co-occurrence |
Collocation | Collocation | Collocation |
Comparator | Comparator | Comparator |
Concordance | Concordance | Concordance |
Date finder | Date finder | Date finder |
Distribution | Distribution | Distribution |
Extract text | Extract text | |
Fixed phrase | Fixed phrase | Fixed phrase |
Hypergraph | ||
Link Extractor | ||
List HTML tags | ||
List Words | List Words | List Words |
List XML elements | ||
Speech Tagger | ||
Summarizer | Summarizer | Summarizer |
Tokenize | Tokenize | Tokenize |
Transformer |
- Autres Outils
- Aggregator
- Raining Words
- Raw Grep
- Tagger
- Weighted Centroid
- Outils Bêta
- Acronym Finder
- CAPs Finder
- Compare with Control
- Get TEI Meta Data
- HTML Text Extractor
- Keywords Finder
- List Word Pairs
- Principal Components Analysis
- Tool Bar
- Word Brush
- Web Page Cleaner
- Word Cloud
Fonctionnalité propres aux outils HTML
Extract Text
La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:
Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".