« Taporware » : différence entre les versions

Version du 11 novembre 2014 à 17:15

Introduction

Taporwareest un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.

Fonctionnalités

Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.

Outil HTML	Outil XML	Outil texte brut
Co-occurrence	Co-occurrence	Co-occurrence
Collocation	Collocation	Collocation
Comparator	Comparator	Comparator
Concordance	Concordance	Concordance
Date finder	Date finder	Date finder
Distribution	Distribution	Distribution
Extract text	Extract text
Fixed phrase	Fixed phrase	Fixed phrase
	Hypergraph
Link Extractor
List HTML tags
List Words	List Words	List Words
	List XML elements
		Speech Tagger
Summarizer	Summarizer	Summarizer
Tokenize	Tokenize	Tokenize
	Transformer

Autres Outils

Aggregator
Raining Words
Raw Grep
Tagger
Weighted Centroid

Outils Bêta

Acronym Finder
CAPs Finder
Compare with Control
Get TEI Meta Data
HTML Text Extractor
Keywords Finder
List Word Pairs
Principal Components Analysis
Tool Bar
Word Brush
Web Page Cleaner
Word Cloud

Fonctionnalité propres aux outils HTML

Extract Text

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:

Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".

@@ Ligne 70 : / Ligne 70 : @@
 [[Fichier:Garretv0_extract_text.png]]
+Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: [http://taporware.ualberta.ca/einstein-bio.html http://taporware.ualberta.ca/einstein-bio.html]
+Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".

« Taporware » : différence entre les versions

Version du 11 novembre 2014 à 17:15

Sommaire

Introduction

Fonctionnalités

Fonctionnalité propres aux outils HTML

Extract Text

Menu de navigation

« Taporware » : différence entre les versions

Version du 11 novembre 2014 à 17:15

Introduction

Fonctionnalités

Fonctionnalité propres aux outils HTML

Extract Text

Menu de navigation

Rechercher

« Taporware » : différence entre les versions