DocuBurst
Analytique et exploration de données | |
---|---|
Module: Outils text mining | |
Page d'entrée du module Analytique et exploration de données |
|
⚐ à améliorer | ☸ débutant |
⚒ 2014/12/17 | ⚒⚒ 2014/11/19 |
Logiciel DocuBurst
Aperçu des fonctions de DocuBurst
Outil de visualisation de document, il peut être utilisé pour:
- Télécharger vos propres documents texte
- Création de résumés créatifs visuels
- Exploration des mots-clés pour découvrir des thèmes ou des sujets de documents
- Recherche de modèles de mots intra- documents, tels que les relations de caractère
- Comparaison de documents
- Possibilité de commenter les résultats obtenus, annoter et partager avec d'autres visualisations
"What is this document about?"
What is this document about? is a common question when navigating large document databases. In a physical library, visitors can browse shelves of books related to their interest, casually opening those with relevant titles, thumbing through tables of contents, glancing at some pages, and deciding whether this volume deserves further attention. In a digital library (or catalogue search of a traditional library) we gain the ability to coalesce documents which may be located in several areas of a physical library into a single listening of potentially interesting documents. (Collins, Carpendale & Penn, 2009)
DocuBurst est un outil de visualisation de document gratuit basé sur le Web pour explorer le contenu d'un texte. Plus un spécifique est une structure de visualisation hiérarchique de substantifs qui se présente de la façon suivante:
DocuBurst combine la fréquence des mots avec la structure crée par l'homme dans des bases de données lexicales pour concevoir une visualisation qui reflète aussi le contenu sémantique. L'utilisateur a la possibilité de télécharger son propre texte ou voir ceux fournis par d'autres DocuBurst présente une graphique interactif appelé "radial sunburst diagram" qui organise les noms extraits du texte fourni par l'utilisateur, en fonction de leur sens , et les colore en fonction de la fréquence, révélant des thèmes communs dans le texte. La visualisation montre également les noms propres (par exemple les noms de personnages ) dans un nuage de mots liés . La visualisation peut être agrandie , filtrée , ou recentré pour cibler des types de mots d'intérêt (par exemple, «animal» des mots ou des mots de "sentiment " ) . La visualisation fournit également un outil de comparaison pour contraster l'utilisation de mot sur deux documents différents.
Son utilité
Le développement de logiciels d'analyse de données textuelles essaient à/de répondre aux problèmes d'aujourd'hui de gestion de l'information de document texte.
Cette application aide à la compréhension d'un ou plusieurs documentes texte. Grace aux caractéristiques du logiciels on a la possibilité de visualiser de façon géométrique et sémantique nos documents texte. De cette manière, une analyse du contenu devrait être plus facile.
L'objectif principale est celui de fournir à l'utilisateur des résumés interactifs des textes qui sont comparés à un coup d'oeil. Cette approche peut servir de support pour une prise de décision lors de la sélection des textes d'intérêts (par exemple pour une recherche) ou comme points de références lors de l'exploration de passages textuels spécifiques.
En utilisant cette technique d'affichage des différences entre deux ou plusieurs documents, DocuBurst peut être utile pour la détection de plagiats, pour des catégorisation de documents ou pour l'attribution d'auteur.
Public cible
- Etudiants
- Enseignants/Tuteurs/Managers
- Chercheurs
Comment se structure-il?
- Il commence par un mots racine très générique (le noeud principale du radiale) pour ensuite s'étendre vers l'extérieur vers des mots plus spécifiques (Step 1).
- Les couleurs les plus sombres de DocuBurst représentent des mots qui se produisent le plus souvent dans le document . Les mots de couleur claire apparaissent moins souvent (children) (Step 2).
- Les tranches sont placés après le noeud. Elles indiquent la fréquence des mots ditent "children".
- À côté du radial des substantifs, il y a une nuage de mots qui sont disposés en fonction du nombre de fois qu'ils apparaissent dans le document. Cette nuage est une visualisation non structurée des noms propres (ex: nom propres, villes, lieux, compagnies,...).
- Quand un mot est sélectionné sur la DocuBurst , la barre de score affiche le score du mot dans le document . Ce score représente la force d'apparition du mot dans le document.
Interagir avec DocuBurst
Il y a trois niveau de lecture d'un document avec DocuBurst.
Explorer DocuBurst
Cette première lecture du document ce focalise sur le radiale. En passant la souris sur un mot ceci met en évidence d'autres mots qui se situent près de lui dans le document.
On faisant clic gauche sur un mot on le sélectionne.
On faisant clic droite sur un mot ceci fait apparaitre les sous-catégories associées à ce mot.
Si on double clic un mot ceci fait apparaitre un nouveau DocuBurst pour le mot sélectionné.
Explorer le nuage des mots
Passez la souris sur un mot pour mettre en évidence d'autres mots trouvés près de lui dans le document.
Click sur un mot pour le sélectionner et filtrer le nuage de mots pour faire apparaitre autour les mots trouvés près de lui dans le document.
Explorer DocuBurst et le nuage des mots
Normalement le radial et la nuage des mots apparaissent ensemble. Une double analyse simultané est donc faisable. Comme vu précédemment en cliquant sur un mot ceci apparaît dans le DocuBurst, dans la nuage de mots et dans le paragraphe à gauche de la page.
Clic droite du mouse sur le mot pour faire apparaitre les sous-catégories associées au mot.
En mettant en évidence un mot (ex: animal), tous les éléments associés au mots animal apparaissent autour du radiale et dans le nuage de mots. Tous ces mots sont présentes dans le documents. Enfin le paragraphe (côté gauche) montrent où «animal» se produit dans le document.
Comparaison de documents
En sélectionnant deux documents depuis la page d'accueil, un DocuBurst comparatif est créé. Le DocuBurst et la nuage contiennent des mots des deux documents . Dans cette exemple, les livres Alice au pays des merveilles et La Petite Sirène, sont comparées en utilisant le DocuBurst enracinée au mot «poisson». Le bleu et le vert servent pour distinguer les différents documents alors que les mots en rouge se retrouvent dans les deux documents.
Pour explorer la comparaison de textes, j'ai procédé en créant deux texte: le premier c'était une vieille synthèse faite lors du cours de Ergonomie de l'année passé, l'autre était l'introduction de l'article d'où j'ai fais ma synthèse. Pour aussi tester ma théorie sur le "plagiat" et citations j'ai aussi copier-coller deux paragraphes depuis l'article de référence et je les ai insérer dans ma synthèse. Après avoir téléchargé les deux textes en format .txt et au moment de choisir le root (le mot racine), j'insère le mot "laypersons" (un mot très fréquent dans les textes) mais déjà un problème se pose: le mot laypersons au pluriel n'apparaisse pas dans les possibilité alors que au singulier oui "layperson". De plus dans les textes le mot laypersons au pluriel existe.
Avantages et Limites
Limites
- Il n'existe pas la possibilité de télécharger des documents en français. La base de données existe seulement en Anglais.
- J'ai crée un DocuBurst à partir d'un document déjà existant dans la base de données du logiciel: Robinson Crusoe. J'ai inséré une racine (root) proposé par le logiciel: possession. J'ai mis en évidence le mot possession dans le radial et je suis allée voir où se plaçait dans le texte (voir box bleu à gauche du radial).
Ensuite dans le nuage des mots propres associés à possession, il y avait captain. Je l'ai donc mis en évidence pour voir où le mot captain associé au mot possession se situait dans le texte: seulement dans un paragraphe du texte les deux mots étaient présentent.
Mais si possession apparaissait normalement dans le texte (en orange) le mot captain non.
J'ai du le cherche moi même en lisant le texte.
De plus que le mot captain était, dans la nuage, comme un des mots les plus fréquents (si on regard comment il sont représentés il y a une hiérarchisation visuel des mots:du plus grand au plus petit en ordre de fréquence). Je ne comprend donc pas s'il s'agit d'un erreur technique ou bien s'il y a quelque chose que je n'ai pas compris dans la logique d'analyse du logiciel.
Tutoriel d'explication
Bibliographie et Ressources
- S. Carpendale, C. Collins and G. Penn, DocuBurst:Visualizing Document Content Using Language Structure. Eurovis '09. 2009. [1]. Disponible: http://innovis.cpsc.ucalgary.ca/innovis/uploads/Publications/Publications/collins_2009_eurovis.pdf. [Consulté le 10 Novembre 2014]
- TaPoR Team from Alberta's University, DocuBurst, TapoR, 2013 [En ligne]. Disponible: http://www.tapor.ca/?id=123 Tapor. [Consulté le 11 Novembre 2014]
- B. Kondo (Réalisatrice). (2012). Video Tutorial of DocuBurst [Vidéo en ligne]. Tiré de https://www.youtube.com/watch?v=e24eeoSegDA