« Taporware » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 225 : Ligne 225 :
p: contenu du chapitre
p: contenu du chapitre
Pour un rappel de la structure d'un document html5: [[HTML5#Introduction|HTML5]]
Pour un rappel de la structure d'un document html5: [[HTML5#Introduction|HTML5]]
==== Création du document en XML ====
Pour convertir votre document au format XML cela va demander plus d'effort car il vous faudra créer une DTD. Une DTD nous permet grossièrement de créer des balises et de spécifier comment elles doivent être utilisées. Vous pouvez soit regarder un peu cette page: [[DTD|DTD]]





Version du 16 décembre 2014 à 18:38

Introduction

Taporware 2.0est un outil d'analyse de texte qui permet aux utilisateurs d'exécuter des analyses de textes sur des documents HTML, XML et du texte brut. Taporware a été développé par Geoffrey Rockwell, Lian Yan, Andrew Macdonald et Matt Patey, à l'université McMaster. Cet outil d'analyse dispose de plusieurs fonctionnalités classées en 5 catégories: outils HTML, outils XML, outils texte brut, autres outils et outils en bêta.

Fonctionnalités

Certaines fonctionnalités pour les catégories des outils HTML, outils XML et outils texte brut sont communes. Celles-ci seront donc expliquées ensemble.

Outil HTML Outil XML Outil texte brut
Co-occurrence Co-occurrence Co-occurrence
Collocation Collocation Collocation
Comparator Comparator Comparator
Concordance Concordance Concordance
Date finder Date finder Date finder
Distribution Distribution Distribution
Extract text Extract text
Fixed phrase Fixed phrase Fixed phrase
Hypergraph
Link Extractor
List HTML tags
List Words List Words List Words
List XML elements
Speech Tagger
Summarizer Summarizer Summarizer
Tokenize Tokenize Tokenize
Transformer
Autres Outils
  • Aggregator
  • Raining Words
  • Raw Grep
  • Tagger
  • Weighted Centroid
Outils Bêta
  • Acronym Finder
  • CAPs Finder
  • Compare with Control
  • Get TEI Meta Data
  • HTML Text Extractor
  • Keywords Finder
  • List Word Pairs
  • Principal Components Analysis
  • Tool Bar
  • Word Brush
  • Web Page Cleaner
  • Word Cloud

Fonctionnalité propres aux outils HTML

Extract Text (HTML)

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise HTML particulière. Il est possible de spécifier le document HTML par une URL où de l'importer. Voilà un exemple:

Garretv0 extract text.png

Ici nous voulons extraire tous les textes contenus dans la balise "h3" du document situé à l'adresse suivante: http://taporware.ualberta.ca/einstein-bio.html

Nous obtenons tout ce qui se trouve dans ces balises. Chaque saut à la ligne représente une nouvelle balise "h3".

Garretv0 extract text result.png

Link Extractor

La fonctionnalité Link Extractor permet de lister tous les liens présents dans une page HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.

List HTML tags

La fonctionnalité List HTML tags permet de compter le nombre de fois qu'apparaissent les différentes balises présentes dans le document HTML. Il est possible de spécifier le document HTML par une URL où de l'importer.

Fonctionnalité propres aux outils XML

Extract Text (XML)

La fonctionnalité Extract Text permet d'extraire tout le texte étant contenu dans une balise XML particulière. Il est possible de choisir une balise ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document HTML par une URL où de l'importer.

Hypergraph

La fonctionnalité Hypergraph permet d'afficher la structure d'un document XML avec des arbres hyperboliques. Il est possible de spécifier le document XML par une URL où de l'importer.

10/11/2014: Cette fonctionnalité ne semble pas fonctionner et nous affiche les messages d'erreurs suivants:

"could not find file /~taporware/cgi-bin/prototype/temp/interact2.XML Start applet with default graph"

"could not find propertyfile /~taporware/cgi-bin/prototype/temp/taporware.prop. Start applet with default properties"

List XML elements

La fonctionnalité List XML elements permet de lister toutes les balises d'un document XML. Cette fonctionnalité compte le nombre de fois qu'apparaissent les différentes balises présentes dans le document, le nombre moyen de mots contenus dans une balise, et liste les attributs propres à chaque balise. Il est possible de spécifier le document XML par une URL où de l'importer.

Transformer

La fonctionnalité Transformer permet de transformer un document XML à l'aide d'un fichier XSL en un document HTML. Il est possible de spécifier le document XML et le fichier XSL par une URL où de les importer.

Fonctionnalité propres aux outils texte brut

Speech Tagger

La fonctionnalité Speech Tagger permet de mettre en évidence avec de la couleur des mots du document texte brut. L'utilisateur choisit la couleur pour chaque tag qu'il veut mettre en évidence. L'utilisateur peut mettre en évidence les conjonctions, les déterminants, les mots étrangers, les adjectifs, les verbes, les "prédeterminer" (all, rather, such...), les pronoms, les particules, les to, les nombres cardinaux, les phrases existentielles ("there is..."), les préposition, les marqueurs d'éléments des listes, les nom, les terminaisons possessives, les adverbes, les symbole et les interjections. Il est possible de spécifier le document sous format de texte brut par une URL où de l'importer.

Fonctionnalité communes aux outils HTML, XML et texte brut

Co-occurrence

La fonctionnalité Co-occurrence permet de chercher deux mots dans le texte s'ils se trouvent à une certaine distance précisée soit en mots, soit en lignes, soit en phrases ou soit en paragraphes et de les mettre en contexte dépendamment de l'option de distance choisie. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Collocation

La fonctionnalité Collocation permet de lister les mots se trouvant autour d'un mot spécifique. Cette distance peut être précisée soit en mots, soit en lignes, soit en phrases ou soit en paragraphes (pour l'outil HTML et texte brut). Il est possible de spécifier le document par une URL où de l'importer.

Comparator

La fonctionnalité Comparator permet de comparer deux textes. Cela nous donne des informations générales des deux textes comme le nombre de mots, le nombre de mots uniques etc. Ensuite tous les mots des deux textes sont comptés et classés en trois tableaux: Ceux qui sont présents dans les deux textes, ceux qui sont uniquement présents dans le texte 1 et ceux qui sont uniquement présents dans le texte 2. Il est possible de spécifier les documents par une URL où de les importer.

Concordance

La fonctionnalité Concordance permet de chercher un mot ou un pattern en particulier et de le mettre en contexte avec le contenu du document. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Date finder

La fonctionnalité Date finder permet d'extraire toutes les dates d'un document. Ces dates peuvent être des années, des mois, des jours de la semaine, des saison ou encore le nom de vacances américaines. L'utilisateur peut spécifier une date précise à rechercher. Il faut tout de même garder à l'esprit que cet outil est en anglais et que par conséquent il ne détecte que les dates mises en anglais. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Distribution

La fonctionnalité Distribution permet de montrer la distribution d'un mot particulier dans un texte, c'est-à-dire où est-ce qu'il apparait. Il est possible de choisir une balise (Pour l'outil HTML et XML) ayant un attribut avec une valeur particulière (pour l'outil XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Fixed phrase

La fonctionnalité Fixed phrase permet de trouver si un mot spécifique est plusieurs fois suivit ou précédé de certaines suites de mots et de dire combien de fois c'est le cas. Par exemple si on choisit le mot "work" et que ce mots apparait deux fois précédé de "he continued to" (he continued to Work) alors ceci sera détecté. Il est possible de spécifier le document par une URL où de l'importer.

List Words

La fonctionnalité List Words permet de compter la fréquence des mots dans un document selon certains critères. On recherche soit tous les mots, soit des mots répondant à certains expressions régulières, soit des mots en particuliers ou soit encore tous les mots sauf certains spécifiés dans une stop list. Nous pouvons choisir la stop list par défaut ou en créer une. Il est possible de choisir une balise (Pour l'outil HTML et XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Summarizer

La fonctionnalité Summarizer permet de créer un résumé d'un document concernant un nombre prédéfini de mots les plus fréquents du document. On y calcule leur fréquence, on affiche les phrases contenant ces mots, le test de concordance, le test de collocation et leur distribution dans les balises (Pour l'outil HTML et XML). Il est possible de choisir une balise (Pour l'outil HTML et XML) pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

Tokenize

La fonctionnalité Tokenize permet de séparer le texte d'un document par "tokens" particulier. Les "tokens" peuvent être des mots, des lignes, des phrases, des paragraphes, des caractères particuliers, des paterns ou encore des balises (Pour l'outil XML). Il est possible de spécifier le document par une URL où de l'importer.

Autres outils

Aggregator

La fonctionnalité Aggregator permet de fusionner des documents à la suite en un seul document. Il est possible de spécifier les document par une URL où de les importer. Cependant si on choisit de les importer alors il n'est possible d'importer que deux documents.

Raining Words

La fonctionnalité Raining Words permet de générer une liste des 20 mots les plus fréquents d'un document et de les afficher dans une applet Java qui en fait un espèce de word Cloud utilisant la taille de police et la couleur pour montrer la fréquence des mots. Il est uniquement possible de spécifier le document par une URL.

Raw Grep

La fonctionnalité Raw Grep permet de chercher tous les mots contenant la suite de texte spécifiée et de le mettre en contexte avec le contenu du document. Par exemple si on décide que la suite de texte est "work" alors "handywork" et "working" seront détectés. Il est possible de spécifier le document par une URL où de l'importer.

Tagger

La fonctionnalité Tagger permet de mettre en évidence les termes que l'on a précisé d'un document XML. Il est possible de choisir une balise XML ayant un attribut avec une valeur particulière pour mieux cibler l'extraction. Il est possible de spécifier le document par une URL où de l'importer.

10/11/2014: Cette fonctionnalité ne semble pas fonctionner.

Weighted Centroid

La fonctionnalité Weighted Centroid permet de montrer la distribution des mots les plus fréquents d'un document dans un graphique. Il est possible de spécifier le document par une URL où de l'importer.

Outils Bêta

Acronym Finder

La fonctionnalité Acronym Finder permet d'extraire les acronymes d'un document. Il est possible de spécifier le document par une URL où de l'importer.

CAPs Finder

La fonctionnalité CAPs Finder permet d'extraire tous les mots contenant des majuscules. Il est possible de spécifier le document par une URL où de l'importer.

Compare with Control

La fonctionnalité Compare with Control permet de comparer une liste de mots dans un document avec un corpus. On recherche soit tous les mots, soit tous les mots sauf certains spécifiés dans une stop list prédéfinie. Il est possible de spécifier le document par une URL où de l'importer. Il est possible d'importer un corpus ou d'utiliser celui qui est proposé (brown corpus).

Get TEI Meta Data

La fonctionnalité Get TEI Meta Data Permet d'extraire les métadonnées d'un document. Il est possible de spécifier le document par une URL où de l'importer.

HTML Text Extractor

La fonctionnalité HTML Text Extractor permet d'extraire des parties d'un document HTML contenues dans une balise avec un attribut ayant une valeur particulière tout en gardant sa mise en forme du document original. En somme, cela permet d'afficher une partie de la page et de rendre le reste invisible. Il est possible de spécifier le document par une URL où de l'importer.

Keywords Finder

La fonctionnalité Keywords Finder permet d'extraire les mots clés d'un document. Il est possible de spécifier le document par une URL où de l'importer.

10/11/2014: Cette fonctionnalité ne semble pas fonctionner.

List Word Pairs

La fonctionnalité List Word Pairs permet de compter la fréquence de pairs de mots apparaissant dans un document (donc deux mots à la suite). Il est possible de spécifier le document par une URL où de l'importer.

Principal Components Analysis

La fonctionnalité Principal Components Analysis permet de générer les relations entre les mots les plus fréquents. Il est possible de spécifier le document par une URL où de l'importer.

Tool Bar

La fonctionnalité Tool Bar nous permet de faire des tests de quelques fonctionnalités déjà énoncées avec une barre d'outil.

Word Brush

La fonctionnalité Word Brush permet de peindre avec les mots extraits d'un document HTML. Il est uniquement possible de spécifier le document par une URL.

Web Page Cleaner

La fonctionnalité Web Page Cleaner permet d'enlever toutes les balises d'un document HTML ou de convertir tout le document HTML en texte brut. Il est possible de spécifier le document par une URL où de l'importer.

Word Cloud

La fonctionnalité Word Cloud permet de faire un Word Cloud avec les mots les plus fréquents d'un document. Il est possible de spécifier le document par une URL où de l'importer.

Tutoriel

Introduction

Pour vous montrer plus en détail les fonctionnalités Taporware et voir ce qu'on peut tirer des résultats obtenus par les différentes analyses je vais faire quelques analyses du livre Candide écrit par Voltaire. Ce livre est disponible gratuitement ici. Le site lirenligne.net regroupe des œuvres littéraires libres de droits. Cette analyse sera effectuée en parallèle avec Arnaud qui lui utilisera l'outil Voyant Tools. Voyant Tools permet également de faire des analyses de textes sur des documents. Cependant celui-ci permet également d'analyser des documents au formats PDF et DOC contrairement à Taporware. Il permet de faire des fonctionnalités à peu près similaires mais avec des affichages un peu différents. Nous montrerons ici ce qu'il est possible de faire avec Taporware.

Phase de préparation

Utilisation d'un document PDF

Malgré la flexibilité de Taporware il sera plus difficile de faire des analyses si les documents ne sont pas structurés de la façon dans laquelle nous voulons analyser les documents. Par conséquent dans bien des cas il faudra commencer par préparer les données que nous voulons analyser avant même de pouvoir commencer les analyses. Comme dit précédemment, un des désavantages de Taporware est qu'il ne permet pas d'analyser des documents au format PDF ou DOC. Les livres en ligne seront dans la plus part des cas au format PDF et ceci constituera une première barrière pour pouvoir analyser notre contenu car les copier-coller ne fonctionne pas toujours très bien avec les documents au format PDF. Il nous faudra donc convertir le document. Nitro est un service qui permet à ce titre de convertir des documents PDF en WORD (DOCX) gratuitement à l'adresse suivante: https://www.pdftoword.com/fr/. Cinq conversions sont possibles pour une même adresse e-mail sans ouvrir de compte.

Correction des erreurs de conversion

Cependant notre outils ne permet pas l'analyse de documents WORD. De plus l'utilisation de cet outil n'est pas magique est quelques erreurs peuvent subsister. Il se peut par exemple qu'il y ait des espaces en trop qui s'ajoutent entre les mots ou des caractères encodés étrangement comme les traits d'union. Ceci peut poser des problèmes pour les analyses. Il faudra donc commencer par corriger ces soucis. Nous allons d'abord régler le soucis des espaces. Il serait très fastidieux d'aller chercher tous les doubles espaces dans un document et de les remplacer par un espace manuellement. Néanmoins Word a une fonction Rechercher/Remplacer qui va nous permettre de corriger cela très rapidement. Commencez par ouvrir votre document généré avec Word. Ensuite chercher la fonction "Rechercher" ou appuyez sur "ctrl+h". Allez à l'onglet "Remplacer" puis dans rechercher mettez deux espaces " " et dans "Remplacer par" un seul espace " " puis cliquez dans "Remplacer tout".

IMAGE A METTRE

Tous les doubles espaces seront donc remplacés par un seul. Cependant cela ne résout pas encore le problème entièrement car il se peut que plus de deux espaces aient été insérés entre les mots. Il vous faudra donc répéter cette opérations jusqu'au moment où on nous dira que 0 remplacements ont été effectués. Faites ensuite attention aux traits d'union car il se peut que le document les ait converti par un "−" à la place d'un "-" ce qui pourrait créer des problèmes par la suite. Je conseille donc de remplacer les "−" par des "-" de la même façon que pour enlever les doubles espaces.

Création du document en TXT

Une fois ces problèmes réglés il faudra donc convertir ce document dans un format accepté par Taporware (html, xml, txt). A partir d'un document WORD il est possible de convertir le fichier en format "txt". Il suffit d'enregistrer le document en format "texte brut". A ce stade nous auront un document pour pouvoir commencer à faire quelques analyses. Cependant avec le format "txt" nous seront obligés d'analyser tout le document à la fois et nous ne pourrons pas analyser certaines parties en particulier de notre document . Si nous convertissons notre document au format "html" nous pourrons faire des analyses par balises. Nous pourrions par exemple imaginer de faire des analyses sur uniquement les titres des chapitres. Cependant, pour le format html, Taporware ne nous laisse pas analyser des balises en particulier appartenant à la même famille de balises. Nous ne pourrions donc par exemple pas analyser uniquement le contenu du chapitre 1. En XML Taporware nous donne plus de flexibilité et nous permet de faire des analyses grâce aux attributs comme l'id ou la class. Il serait donc possible d'analyser uniquement le chapitre 1 en XML. Cependant comme l'outil comporte encore quelques bugs parfois des analyses avec les documents XML ne fonctionnent pas mais fonctionnent avec le HTML. Il sera alors tout de même important d'avoir notre document aux deux formats.

Création du document en HTML

Pour convertir votre document au format html il vous faudra donc ajouter dans un document html. Je vous conseille d'utiliser des balises différentes pour les différentes parties de votre document. Par exemple: h1: Le titre du livre h2: Le nom de l'auteur h3: numéro du chapitre h4: nom du chapitre p: contenu du chapitre Pour un rappel de la structure d'un document html5: HTML5

Création du document en XML

Pour convertir votre document au format XML cela va demander plus d'effort car il vous faudra créer une DTD. Une DTD nous permet grossièrement de créer des balises et de spécifier comment elles doivent être utilisées. Vous pouvez soit regarder un peu cette page: DTD


Phase d'analyse

Remarques

Il est possible d'insérer une barre d'outil Taporware dans nos site pour ainsi pouvoir utiliser les fonctionnalités principales de cet outil sur nos sites. Il nous est indiqué comment insérer cette barre d'outil sur ce lien: http://taporware.ualberta.ca/~taporware/addTool.shtml

Il est possible que certaines fonctionnalités ne fonctionnent pas si notre navigateur bloque les fenêtres pop-up. Les applet Java peuvent ne pas fonctionner dépendamment de notre version de Java.

Analyser des pages provenant du Wiki ne fonctionne pas en lui donnant l'URL. Il faut enregistrer la page sur notre ordinateur puis choisir l'option pour importer le document pour que cela fonctionne.