AntConc
Analytique et exploration de données | |
---|---|
Module: Outils text mining | |
⚐ à améliorer | ☸ débutant |
⚒ 2015/01/03 | ⚒⚒ 2014/11/19 |
Voir aussi | |
Catégorie: Outils text mining |
Description
Le logiciel Antconc est un concordancier gratuit développé par le professeur Laurence Anthony actuellement à l’Université Waseda au Japon. Le concordancier traite de l’identification automatique de la structure de textes qui peut être appliquée à la recherche en générale. La démarche avec ce logiciel va du général au particulier. Il est largement utilisé dans l’analyse des corpus en linguistique mais il peut être utilisé dans tous les domaines.
AntConc peut être utilisé avec Windows, Macintosh et Linux.
Site web et tutoriels en anglais
Le site officiel du logiciel est : Homepage AntConc où on peut télécharger le logiciel gratuitement.
Pour les tutoriels en anglais visitez: Video tutorials
Langues acceptés
L’outil peut être utilisé pour l’analyse de textes dans la plupart des langues y compris les langues asiatiques comme le japonais, le coréen et le chinois. Il prend en charge des langues gérées par le codage UTF8.
Formats
Le logiciel travaille avec les textes bruts, les textes balisés ou les textes annotés. On peut analyser des fichiers simples ou des corpus de plusieurs fichiers.
Le logiciel prend en charge les formats *.txt, *.html et *.xml.
Définitions importants
Concordancier
Le concordancier ou logiciel de concordance est un outil de référence très utile aux linguistes qui permet de faire la recherche dans un corpus d'un mot accompagné de son contexte, que ce soit pour attester son usage ou l'étudier.
Concordance
Répertoire des exemples rencontrés pour chaque mot donnant chaque occurrence dans un contexte minimal.
Corpus
Ensemble des textes authentiques qui suivent des critères précis pour un objectif d’étude défini et qui se trouve le plus souvent au format électronique.
N-Gram
Sous-séquence de n éléments construite à partir d'une séquence donnée.
Kwic
C’est le mot clé présenté dans le contexte (de l’anglais Key Word in Context).
Lemma
La racine d’un mot. Une liste de lemmas inclut les mots et ses inflexions.
Tutoriel
Téléchargement du logiciel
Dans le site officiel vous pouvez choisir la version plus récente ou celle qui correspond à vos besoins. Dans cette page vous trouverez également plusieurs autres outils développés par le professeur Laurence Anthony.
Il n’y a pas besoin d’installation, ce logiciel fonctionne avec un fichier exécutable. Cliquez sur l’icône du logiciel pour commencer.
Commencer
Voici l'écran principal:
- En haut de l’outil on trouve les menus.
- En haut de l’espace central on trouve les onglets/outils à utiliser pour les analyses.
- Dans l’espace au milieu on voit les résultats de l’analyse des outils. Cet espace est divisé en trois colonnes “Hit” (le numero du résultat), “Kwic” (le mot clé avec un petit context) et “File” (le fichier d’emplacement du mot clé).
- Dans l’espace à gauche on voit les noms des fichiers du corpus utilisé. En bas des cette espace on trouve le nombre total de fichiers téléchargés dans l’outil.
- En bas de l’outil au centre on trouve l’espace de recherche. Dans l’espace blanc (boîte de recherche) on peut écrire des mots ou des expressions rationnelles (aussi appelées expressions réguilères) pour trouver des mots dans le corpus. La boîte de recherche sauvegarde automatiquement les recherches, on peut trouver un mot ou une expression rationnelle utilisée auparavant avec les flèches du clavier qui montent et descendent.
- “Search window size” correspond au nombre de caractères présentés dans les résultats.
- “Clone results” permet de comparer les résultats. (Voir section “Autres”)
- L’option “Sort” permet de trier les résultats. Ce triage est défini dans l’espace “Kwic” en bas de la boîte de recherche. Avec ces parametres vous pouvez choisir de mettre en évidence de mots de chaque côté du mot clé. Par exemple: si vous laissez les paramétres par défaut ( Level 1 → 1R; Level 2 → 2R; Level 3 → 3R) et cliquez sur “start” vous verrez comment le premier, deuxième et troixième mots sont mis en évidence. Changez les parametres avec les mêmes nombres mais vers la gauche ( Level 1 → 1L; Level 2 → 2L; Level 3 → 3L) pour voir comment la visualisation change.
Recherche basique
Ecrivez un mot ou plus dans la boîte de recherche et cliquez “Start”. Les résultats seront présentés avec un petit contexte dans l’espace central de la fenêtre de travail.
- Cochez l’option “Words” pour chercher des mots complets.
- Cochez “Case” pour tenir compte des majuscules et minuscules dans le mot à chercher. Si cette option n’est pas chochée, l’outil présentera tous les résultats qui incluent des lettres majuscules et minuscules.
- Cochez “Regex” pour utiliser les expressions régulières. Notez que quand vous la cochez les options “Words” et “Case” sont désactivées.
Recherche avancée
Quand vous cliquez sur “Advanced search” une petite fenêttre s’ouvre. Notez que chaque fois que vous modifiez l’information dans la fenêtre “Advance search” il est nécessaire de cliquer sur “Start” pour recommencer la recherche.
- Dans cette fenêtre vous pouvez cocher également “Words”, “Case” ou “Regex”.
- Si vous cherchez seulement quelques mots, vous pouvez les ajouter manuellement dans la boîte et cocher l’option “Use search term(s) from list below”. Vous pouvez également télécharger une liste de mots créée auparavant dans un fichier *.txt en utilisant le bouton “load file”.
- Le bouton “clear” enlève tous les mots ajoutés dans la boîte.
- Dans l’espace “Context words” vous pouvez ajouter des mots que vous voulez mettre en évidence s’ils se trouvent dans le contexte du mot clé. Avec les paramètres “Context Horizon” vous décidez le nombre limite dans lequel les mots du contexte doivent se trouver. Par exemple le paramètre par défault “From 5L to 5R” veut dire que l’outil va chercher les mots insérés dans la boîte dans les 5 mots à gauche et à droite du mot clé.
Téléchargement d'un corpus
Pour commencer l’analyse de votre corpus allez dans le menu “File” pour ouvrir un fichier (Open file) ou un dossier (open directory).
Menus
File (Fichier)
Vous trouverez dans ce menu les options pour ouvrir et fermer un fichier ou un dossier.
Vous pouvez utiliser la fonctionnalité “Clear” pour effacer les résultats obtenus avec tous les outils, avec un outil en particulier ou pour enlever les fichiers de l’outil.
Vous pouvez sauvegarder les résultats directement dans un fichier texte.
Les paramètres d’exportation et importation (Import/Export settings) correspondent aux paramètres par défault utilisés dans l’outil. Si vous changez ces paramètres et voulez les restaurer cliquez sur “Restore default settings”.
Global Settings (Paramètres généraux)
Dans ce menu vous trouverez sept catégories.
- Vous pouvez choisir l’encodage des caractères, les couleurs des mots présentés dans les résultats, de montrer ou non l’extension des fichiers et vous décidez le type de fichier avec lequel vous allez travailler.
- Dans la catégorie de police vous pouvez choisir le type et la taille pour la visualisation des fichiers, des résultats et du texte de la recherche.
- Dans la catégorie tags (balises) vous décidez de cacher ou montrer les différents types de balises.
- Vous pouvez aussi définir les tokens (les unités linguistiques qui portent du sens).
- En plus, les Wild cards (les métacaractères) sont des symboles qui permettent de faire de recherches plus rapides, ces symboles peuvent être utilisés dans la plupart des outils/onglets.
Tool preferences (Préférences de l’outil)
Dans ce menu vous pouvez personnaliser chaque outil/onglet et décider le type d’information que vous voulez chercher et la façon de la présenter.
Help (Aide)
Ce menu offre deux types d’information:
- La première est un manuel du logiciel en format *.pdf qui s’ouvre en cliquant sur l’option pour voir le fichier (« read me »).
- La deuxième information parle du logiciel directement, de sa version, de sa date de diffusion et du développeur.
Outils/Onglets
Les différents outils du logiciel se trouvent dans les onglets au-dessus de l’espace de résultats. La recherche des mots place toujours le mot résultant au milieu de l’écran. Vous pouvez regarder le contexte des mots en utilisant la barre gauche/droite.
Il est important de méntionner que pour chaque onglet/outil il y a différentes options pour traiter l’information. Dans l’explication de chaque onglet/outil ces options sont présentées.
Concordance (Onglet de concordance)
Cet outil permet de faire la recherche par mot et il montre les mots à gauche et à droite du mot cherché. Pour voir un peu plus de contexte du mot vous pouvez augmenter le nombre de caractères de chaque côté en cliquant sur les flèches de l’option « Search window size ».
L’option « sort » (trier) permet d’identifier des modèles dans les textes. Dans cet onglet vous pouvez trier les résultats par « kwic », c’est-à -dire, identifier plusieurs mots à gauche et à droite des résultats.
Vous pouvez aussi faire des recherches à l’aide des expressions régulières.
Concordance Plot (Onglet mesure de la concordance)
Cet onglet a des caractéristiques identiques à l’outil « Concordance » mais la présentation des résultats est différente. Avec cet outil vous pouvez voir les résultats d’une recherche par fichiers et leur emplacement dans les fichiers. Pour voir plus en détail on peut utiliser la fonctionnalité « zoom ». Parmi les limites de cet outil on trouve qu’il n’y a pas la fonctionnalité pour comparer les résultats.On ne peut pas non plus sauvegarder l’information, si on veut sauvegarder les résultats depuis cet outil il est nécessaire de faire une capture d’écran.
View File Tool (Onglet de visualisation de fichiers)
Cet outil permet de voir chaque fichier individuellement et de faire des recherches à l’intérieur.
Vous pouvez passer d’une recherche dans l’outil « concordance » à l’outil « view file » et revenir.
A n’importe quel moment, si vous voulez voir un des résultats dans le contexte du fichier complet cliquez simplement sur le mot. Le mot sera mis en évidence avec une couleur différente. Si vous descendez dans le fichier vous verrez le mot mis en évidence chaque fois que l’outil l’a trouvé.
Clusters tool (Onglet de groupes)
Cet outil permet de chercher des modèles de 2 ou 3 mots qui apparaissent immédiatement à gauche ou à droite du mot clé et de classer les résultats par fréquence par exemple. L’outil peut être également utilisé pour résumer les résultats de l’outil « concordance » ou de l’outil « concordance plot ». On peut ici également comparer les résultats.
Vous pouvez délimiter la recherche par rapport à la taille (Cluster Size), à la fréquence (Min. Freq.) et au nombre de fichiers (Min. Range) dans lesquels se trouve le mot.
Vous pouvez aussi décider de montrer les mots qui l’accompagnent du côté gauche et du côté droit (Search Term Position).
Sort by pro (trier par probabilité)
Cette fonctionnalité donne la probabilité qu’a le deuxième mot d'apparaître après le premier.
Sort by freq (trier par fréquence)
Cette fonctionnalité présente le nombre de fois que le groupe de mots se trouve dans le corpus.
Sort by Range (trier par fichier)
Cette fonctionnalité présente le nombre de fois que le groupe de mots se trouve dans chaque fichier du corpus.
Sort by Word (trier par mot)
Cette fonctionnalité présente les résultats organisés alphabétiquement.
Sort by Word End (trier par la fin du mot)
Cette fonctionnalité présente les résultats organisés alphabétiquement en prenant compte de la dernière lettre du mot.
Outil N-Grams
L’outil permet de scanner tout le corpus par groupes de mots (clusters) de différentes tailles. Il permet de trouver des expressions communes dans le texte sans spécifier la recherche. L’outil est très pertinent quand on veut regarder le contexte des mots sans avoir une hypothèse à valider, quand on veut initialement observer les liens entre les mots.
L’outil peut aussi montrer de nouveaux résultats qu’on n’avait pas prévu dans notre recherche.
Collocates tool (Onglet des coocurrents)
Cet outil permet de chercher des mots qui ont souvent une connexion ou une association. Les résultats montrent les mots qui apparaissent dans le fichier selon les paramètres choisis. On peut choisir la fréquence minimale d’association entre les mots.
Pour la visualisation des résultats l’outil doit générer une liste de mots (outil Word List), c’est la raison pour laquelle une boîte de dialogue peut s’ouvrir pour nous le demander. Cliquez sur « ok » pour voir les résultats de l’outil.
Word List (Onglet liste de mots)
L’outil permet de compter tous les mots dans le corpus. Il permet aussi de trouver des mots dans la liste et leur information sur la fréquence. Pour voir les mots les plus fréquents on clique sur « start » sans écrire aucun mot. Vous pouvez trier les résultats par fréquence, par mot (alphabétiquement) ou par la fin du mot (la dernière lettre).
Il y existe aussi l’option pour inverser l’ordre, ce qui placera les mots dans une liste dans le sens contraire au sens alphabétique ou placera les mots les moins fréquents au début si on est en train de trier les résultats par fréquence.
Pour trouver un mot dans la liste on l’écrit dans la boîte de recherche et on clique sur « Search Only » de cette façon on trouvera la fréquence de ce mot spécifiquement.
Outil Keyword List (Onglet liste de mots-clés)
Il permet de trouver des mots dans le corpus qui ont une fréquence inhabituelle quand on les compare avec un document de référence. La mesure de cette fréquence inhabituelle est appelée « Keyness strenght ».
Pour la calculer on doit fournir une liste de mots de référence. Vous pouvez créer cette liste dans un bloc-notes par exemple et l’ajouter à l’outil.
Autres
Copie de résultats dans autre type des documents
Cette fonctionnalité est très pertinente pour l’analyse des données ou pour la présentation des résultats dans les documents finaux. Utilisez shift + clique pour sélectionner les lignes à copier (ctrl + c), vous pouvez en suite les coller dans un tableur ou dans un document texte.
Bouton « Clone results »
Permet la comparaison de résultats dans plusieurs fenêtres. Quand vous obtenez des résultats cliquez sur le bouton et une petite fenêtre s’ouvrira ce qui permet de effectuer une nouvelle recherche dans la fenêtre principale et comparer les résultats de la petite fenêtre.