« Taporware » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 65 : | Ligne 65 : | ||
=== Fonctionnalité propres aux outils HTML === | === Fonctionnalité propres aux outils HTML === | ||
==== Extract Text ==== | ==== Extract Text(HTML) ==== | ||
La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. | La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. | ||
Voilà un exemple: | Voilà un exemple: | ||
Ligne 76 : | Ligne 76 : | ||
[[Fichier:Garretv0_extract_text_result.png]] | [[Fichier:Garretv0_extract_text_result.png]] | ||
==== Link Extractor ==== | |||
La fonctionnalité Link Extractor permet de lister tous les liens présents dans une page HTML. Il est possible de spécifier le document HTML par une URL où de l'importer. | |||
==== List HTML tags ==== | |||
La fonctionnalité List HTML tags permet de compter le nombre de fois qu'apparaissent les différentes balises présentes dans le document HTML. Il est possible de spécifier le document HTML par une URL où de l'importer. | |||
=== Fonctionnalité propres aux outils XML === | |||
==== Extract Text(XML) ==== | |||
La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise XML particulière. Il est possible de choisir une balise ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document HTML par une URL où de l'importer. | |||
==== Hypergraph ==== | |||
La fonctionnalité Hypergraph permet d'afficher la structure d'un document XML avec des arbres hyperboliques. Il est possible de spécifier le document XML par une URL où de l'importer. | |||
19/11/2014: Cette fonctionnalité ne semble pas fonctionner et nous affiche les messages d'erreurs suivants: | |||
"could not find file /~taporware/cgi-bin/prototype/temp/interact2.XML Start applet with default graph" | |||
==== List XML elements ==== | |||
La fonctionnalité List XML elements permet de lister toutes les balises d'un document XML. Cette fonctionnalité compte le nombre de fois qu'apparaissent les différentes balises présentes dans le document, le nombre moyen de mots contenus dans une balise, et liste les attributs propres à chaque balise. Il est possible de spécifier le document XML par une URL où de l'importer. | |||
==== Transformer ==== | |||
La fonctionnalité Transformer permet de transformer un document XML à l'aide d'un fichier XSL en un document HTML. Il est possible de spécifier le document XML et le fichier XSL par une URL où de les importer. | |||
=== Fonctionnalité propres aux outils texte brut === | |||
==== Speech Tagger ==== | |||
La fonctionnalité Speech Tagger permet de mettre en évidence avec de la couleur des mots du document texte brut. L'utilisateur choisit la couleur pour chaque tag qu'il veut mettre en évidence. L'utilisateur peut mettre en évidence les conjonctions, les déterminants, les mots étrangers, les adjectifs, les verbes, les "prédeterminer" (all, rather, such...), les pronoms, les particules, les to, les nombres cardinaux, les phrases existentielles ("there is..."), les préposition, les marqueurs d'éléments des listes, les nom, les terminaisons possessives, les adverbes, les symbole et les interjections. Il est possible de spécifier le document sous format de texte brut par une URL où de l'importer. | |||
"could not find propertyfile /~taporware/cgi-bin/prototype/temp/taporware.prop. Start applet with default properties" |
Version du 11 novembre 2014 à 17:42
Introduction
Taporwareest un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.
Fonctionnalités
Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.
Outil HTML | Outil XML | Outil texte brut |
---|---|---|
Co-occurrence | Co-occurrence | Co-occurrence |
Collocation | Collocation | Collocation |
Comparator | Comparator | Comparator |
Concordance | Concordance | Concordance |
Date finder | Date finder | Date finder |
Distribution | Distribution | Distribution |
Extract text | Extract text | |
Fixed phrase | Fixed phrase | Fixed phrase |
Hypergraph | ||
Link Extractor | ||
List HTML tags | ||
List Words | List Words | List Words |
List XML elements | ||
Speech Tagger | ||
Summarizer | Summarizer | Summarizer |
Tokenize | Tokenize | Tokenize |
Transformer |
- Autres Outils
- Aggregator
- Raining Words
- Raw Grep
- Tagger
- Weighted Centroid
- Outils Bêta
- Acronym Finder
- CAPs Finder
- Compare with Control
- Get TEI Meta Data
- HTML Text Extractor
- Keywords Finder
- List Word Pairs
- Principal Components Analysis
- Tool Bar
- Word Brush
- Web Page Cleaner
- Word Cloud
Fonctionnalité propres aux outils HTML
Extract Text(HTML)
La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:
Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html
Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".
Link Extractor
La fonctionnalité Link Extractor permet de lister tous les liens présents dans une page HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.
List HTML tags
La fonctionnalité List HTML tags permet de compter le nombre de fois qu'apparaissent les différentes balises présentes dans le document HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.
Fonctionnalité propres aux outils XML
Extract Text(XML)
La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise XML particulière. Il est possible de choisir une balise ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document HTML par une URL où de l'importer.
Hypergraph
La fonctionnalité Hypergraph permet d'afficher la structure d'un document XML avec des arbres hyperboliques. Il est possible de spécifier le document XML par une URL où de l'importer. 19/11/2014: Cette fonctionnalité ne semble pas fonctionner et nous affiche les messages d'erreurs suivants:
"could not find file /~taporware/cgi-bin/prototype/temp/interact2.XML Start applet with default graph"
List XML elements
La fonctionnalité List XML elements permet de lister toutes les balises d'un document XML. Cette fonctionnalité compte le nombre de fois qu'apparaissent les différentes balises présentes dans le document, le nombre moyen de mots contenus dans une balise, et liste les attributs propres à chaque balise. Il est possible de spécifier le document XML par une URL où de l'importer.
Transformer
La fonctionnalité Transformer permet de transformer un document XML à l'aide d'un fichier XSL en un document HTML. Il est possible de spécifier le document XML et le fichier XSL par une URL où de les importer.
Fonctionnalité propres aux outils texte brut
Speech Tagger
La fonctionnalité Speech Tagger permet de mettre en évidence avec de la couleur des mots du document texte brut. L'utilisateur choisit la couleur pour chaque tag qu'il veut mettre en évidence. L'utilisateur peut mettre en évidence les conjonctions, les déterminants, les mots étrangers, les adjectifs, les verbes, les "prédeterminer" (all, rather, such...), les pronoms, les particules, les to, les nombres cardinaux, les phrases existentielles ("there is..."), les préposition, les marqueurs d'éléments des listes, les nom, les terminaisons possessives, les adverbes, les symbole et les interjections. Il est possible de spécifier le document sous format de texte brut par une URL où de l'importer.
"could not find propertyfile /~taporware/cgi-bin/prototype/temp/taporware.prop. Start applet with default properties"