AntConc

Analytique et exploration de données
Module: Outils text mining

⚐ finalisé	☸ intermédiaire
⚒ 2015/03/12	⚒⚒ 2014/11/19
Voir aussi
Text mining avec R
Catégorie: Outils text mining

Description

Le logiciel Antconc est un concordancier gratuit développé par le professeur Laurence Anthony actuellement à l’Université Waseda au Japon. Le concordancier traite de l’identification automatique de la structure de textes qui peut être appliquée à la recherche en générale. La démarche avec ce logiciel va du général au particulier. Il est largement utilisé dans l’analyse des corpus en linguistique mais il peut être utilisé dans tous les domaines.
AntConc peut être utilisé avec Windows, Macintosh et Linux.

Site web et tutoriels en anglais

Le site officiel du logiciel est : Homepage AntConc où on peut télécharger le logiciel gratuitement.
Pour les tutoriels en anglais visitez: Video tutorials

Langues acceptées

L’outil peut être utilisé pour l’analyse de textes dans la plupart des langues y compris les langues asiatiques comme le japonais, le coréen et le chinois. Il prend en charge des langues gérées par le codage UTF8.

Formats acceptés

Le logiciel travaille avec les textes bruts, les textes balisés ou les textes annotés. On peut analyser des fichiers simples ou des corpus de plusieurs fichiers.
Le logiciel prend en charge les formats *.txt, *.html et *.xml.

Que peut-on faire avec ce logiciel ?

Analyse de discours
Enseignement/apprentissage de langues
Recherche en général

Définitions importants

Concordancier

Le concordancier ou logiciel de concordance est un outil de référence très utile aux linguistes qui permet de faire la recherche dans un corpus d'un mot accompagné de son contexte, que ce soit pour attester son usage ou l'étudier.

Concordance

Répertoire des exemples rencontrés pour chaque mot donnant chaque occurrence dans un contexte minimal.

Corpus

Ensemble des textes authentiques qui suivent des critères précis pour un objectif d’étude défini et qui se trouve le plus souvent au format électronique.

N-Gram

Sous-séquence de n éléments construite à partir d'une séquence donnée.

Kwic

C’est le mot clé présenté dans le contexte (de l’anglais Key Word in Context).

Lemma

La racine d’un mot. Une liste de lemmas inclut les mots et ses inflexions.

Tutoriel

Téléchargement du logiciel

Dans le site officiel vous pouvez choisir la version plus récente ou celle qui correspond à vos besoins. Dans cette page vous trouverez également plusieurs autres outils développés par le professeur Laurence Anthony.
Il n’y a pas besoin d’installation, ce logiciel fonctionne avec un fichier exécutable. Cliquez sur l’icône du logiciel pour commencer.

Commencer

Voici l'écran principal:

En haut de l’outil on trouve les menus.
En haut de l’espace central on trouve les onglets/outils à utiliser pour les analyses.
Dans l’espace au milieu on voit les résultats de l’analyse des outils. Cet espace est divisé en trois colonnes “Hit” (le numero du résultat), “Kwic” (le mot clé avec un petit context) et “File” (le fichier d’emplacement du mot clé).
Dans l’espace à gauche on voit les noms des fichiers du corpus utilisé. En bas des cette espace on trouve le nombre total de fichiers téléchargés dans l’outil.
En bas de l’outil au centre on trouve l’espace de recherche. Dans l’espace blanc (boîte de recherche) on peut écrire des mots ou des expressions rationnelles (aussi appelées expressions réguilères) pour trouver des mots dans le corpus. La boîte de recherche sauvegarde automatiquement les recherches, on peut trouver un mot ou une expression rationnelle utilisée auparavant avec les flèches du clavier qui montent et descendent.
“Search window size” correspond au nombre de caractères présentés dans les résultats.
“Clone results” permet de comparer les résultats. (Voir section “Autres”)
L’option “Sort” permet de trier les résultats. Ce triage est défini dans l’espace “Kwic” en bas de la boîte de recherche. Avec ces parametres vous pouvez choisir de mettre en évidence de mots de chaque côté du mot clé. Par exemple: si vous laissez les paramétres par défaut ( Level 1 → 1R; Level 2 → 2R; Level 3 → 3R) et cliquez sur “start” vous verrez comment le premier, deuxième et troixième mots sont mis en évidence. Changez les parametres avec les mêmes nombres mais vers la gauche ( Level 1 → 1L; Level 2 → 2L; Level 3 → 3L) pour voir comment la visualisation change.

Recherche basique

Ecrivez un mot ou plus dans la boîte de recherche et cliquez “Start”. Les résultats seront présentés avec un petit contexte dans l’espace central de la fenêtre de travail.

Cochez l’option “Words” pour chercher des mots complets.
Cochez “Case” pour tenir compte des majuscules et minuscules dans le mot à chercher. Si cette option n’est pas chochée, l’outil présentera tous les résultats qui incluent des lettres majuscules et minuscules.
Cochez “Regex” pour utiliser les expressions régulières. Notez que quand vous la cochez les options “Words” et “Case” sont désactivées. Pour plus d'information sur les expressions régulières visitez le wiki : Expression_régulière

Recherche avancée

Quand vous cliquez sur “Advanced search” une petite fenêttre s’ouvre. Notez que chaque fois que vous modifiez l’information dans la fenêtre “Advance search” il est nécessaire de cliquer sur “Start” pour recommencer la recherche.

Dans cette fenêtre vous pouvez cocher également “Words”, “Case” ou “Regex”.
Si vous cherchez seulement quelques mots, vous pouvez les ajouter manuellement dans la boîte et cocher l’option “Use search term(s) from list below”. Vous pouvez également télécharger une liste de mots créée auparavant dans un fichier *.txt en utilisant le bouton “load file”.
Le bouton “clear” enlève tous les mots ajoutés dans la boîte.
Dans l’espace “Context words” vous pouvez ajouter des mots que vous voulez mettre en évidence s’ils se trouvent dans le contexte du mot clé. Avec les paramètres “Context Horizon” vous décidez le nombre limite dans lequel les mots du contexte doivent se trouver. Par exemple le paramètre par défault “From 5L to 5R” veut dire que l’outil va chercher les mots insérés dans la boîte dans les 5 mots à gauche et à droite du mot clé.

Téléchargement d'un corpus

Pour commencer l’analyse de votre corpus allez dans le menu “File” pour ouvrir un fichier (Open file) ou un dossier (open directory).

Menus

File (Fichier)

Vous trouverez dans ce menu les options pour ouvrir et fermer un fichier ou un dossier.

Vous pouvez utiliser la fonctionnalité “Clear” pour effacer les résultats obtenus avec tous les outils, avec un outil en particulier ou pour enlever les fichiers de l’outil.

Vous pouvez sauvegarder les résultats directement dans un fichier texte.

Les paramètres d’exportation et importation (Import/Export settings) correspondent aux paramètres par défault utilisés dans l’outil. Si vous changez ces paramètres et voulez les restaurer cliquez sur “Restore default settings”.

Global Settings (Paramètres généraux)

Dans ce menu vous trouverez sept catégories :

Vous pouvez choisir l’encodage des caractères, les couleurs des mots présentés dans les résultats, de montrer ou non l’extension des fichiers et vous décidez le type de fichier avec lequel vous allez travailler.
Dans la catégorie de police vous pouvez choisir le type et la taille pour la visualisation des fichiers, des résultats et du texte de la recherche.
Dans la catégorie tags (balises) vous décidez de cacher ou montrer les différents types de balises.
Vous pouvez aussi définir les tokens (les unités linguistiques qui portent du sens).
En plus, les Wild Cards (les métacaractères) sont des symboles qui permettent de faire de recherches plus rapides, ces symboles peuvent être utilisés dans la plupart des outils/onglets.

Métacaractères qui facilitent la recherche

Tool preferences (Préférences de l’outil)

Dans ce menu vous pouvez personnaliser chaque outil/onglet et décider le type d’information que vous voulez chercher et la façon de la présenter.

Help (Aide)

Ce menu offre deux types d’information:

La première est un manuel du logiciel en format *.pdf qui s’ouvre en cliquant sur l’option pour voir le fichier (« read me »).
La deuxième information parle du logiciel directement, de sa version, de sa date de diffusion et du développeur.

Outils/Onglets

Les différents outils du logiciel se trouvent dans les onglets au-dessus de l’espace de résultats. La recherche des mots place toujours le mot résultant au milieu de l’écran. Vous pouvez regarder le contexte des mots en utilisant la barre gauche/droite.

Il est important de méntionner que pour chaque onglet/outil il y a différentes options pour traiter l’information. Dans l’explication de chaque onglet/outil ces options sont présentées.

Concordance (Onglet de concordance)

Cet outil permet de faire la recherche par mot et il montre les mots à gauche et à droite du mot cherché. Pour voir un peu plus de contexte du mot vous pouvez augmenter le nombre de caractères de chaque côté en cliquant sur les flèches de l’option « Search window size ».
L’option « sort » (trier) permet d’identifier des modèles dans les textes. Dans cet onglet vous pouvez trier les résultats par « kwic », c’est-à -dire, identifier plusieurs mots à gauche et à droite des résultats.
Vous pouvez aussi faire des recherches à l’aide des expressions régulières.

Concordance Plot (Onglet mesure de la concordance)

Cet onglet a des caractéristiques identiques à l’outil « Concordance » mais la présentation des résultats est différente. Avec cet outil vous pouvez voir les résultats d’une recherche par fichiers et leur emplacement dans les fichiers. Pour voir plus en détail on peut utiliser la fonctionnalité « zoom ». Parmi les limites de cet outil on trouve qu’il n’y a pas la fonctionnalité pour comparer les résultats.On ne peut pas non plus sauvegarder l’information, si on veut sauvegarder les résultats depuis cet outil il est nécessaire de faire une capture d’écran.

View File Tool (Onglet de visualisation de fichiers)

Cet outil permet de voir chaque fichier individuellement et de faire des recherches à l’intérieur.

Vous pouvez passer d’une recherche dans l’outil « concordance » à l’outil « view file » et revenir.

A n’importe quel moment, si vous voulez voir un des résultats dans le contexte du fichier complet cliquez simplement sur le mot. Le mot sera mis en évidence avec une couleur différente. Si vous descendez dans le fichier vous verrez le mot mis en évidence chaque fois que l’outil l’a trouvé.

Clusters tool (Onglet de groupes)

Cet outil permet de chercher des modèles de 2 ou 3 mots qui apparaissent immédiatement à gauche ou à droite du mot clé et de classer les résultats par fréquence par exemple. L’outil peut être également utilisé pour résumer les résultats de l’outil « concordance » ou de l’outil « concordance plot ». On peut ici également comparer les résultats.
Vous pouvez délimiter la recherche par rapport à la taille (Cluster Size), à la fréquence (Min. Freq.) et au nombre de fichiers (Min. Range) dans lesquels se trouve le mot.

Vous pouvez aussi décider de montrer les mots qui l’accompagnent du côté gauche et du côté droit (Search Term Position).

Sort by pro (trier par probabilité)

Cette fonctionnalité donne la probabilité qu’a le deuxième mot d'apparaître après le premier. Par exemple, dans l’image suivante on voit que dans le pair “compétences relationnelles” la probabilité de que “relationnelles” apparaît après “compétences" est de 0.133.

Sort by freq (trier par fréquence)

Cette fonctionnalité présente le nombre de fois que le groupe de mots se trouve dans le corpus. Dans l’exemple ci-dessus la fréquence du pair “compétences relationnelles” est de 11 fois.

Sort by Range (trier par fichier)

Cette fonctionnalité présente le nombre de fois que le groupe de mots se trouve dans chaque fichier du corpus. Dans l’image ci-dessous on voit que le pair “compétences individuelles” a une fréquence de 3 fois dans le document 2 et le pair “compétences acquises” a une fréquence de 2 fois dans le document 1.

Sort by Word (trier par mot)

Cette fonctionnalité présente les résultats organisés alphabétiquement.

Sort by Word End (trier par la fin du mot)

Cette fonctionnalité présente les résultats organisés alphabétiquement en prenant compte de la dernière lettre du mot.

Outil N-Grams

L’outil permet de scanner tout le corpus par groupes de mots (clusters) de différentes tailles. Il permet de trouver des expressions communes dans le texte sans spécifier la recherche. L’outil est très pertinent quand on veut regarder le contexte des mots sans avoir une hypothèse à valider, quand on veut initialement observer les liens entre les mots.

L’outil peut aussi montrer de nouveaux résultats qu’on n’avait pas prévu dans notre recherche.

Collocates tool (Onglet des coocurrents)

Cet outil permet de chercher des mots qui ont des connexions ou des associations plus ou moins directes dans un texte. On peut regarder les mots à droite et à gauche d'un mot choisi. On peut choisir également la fréquence minimale d’association entre les mots. L'outil mesure la force de l'association entre les mots, cette force a à voir avec la distance qui existe entre lesdites mots.

Pour la visualisation des résultats l’outil doit générer une liste de mots (outil Word List), c’est la raison pour laquelle une boîte de dialogue peut s’ouvrir pour nous le demander. Cliquez sur « ok » pour voir les résultats de l’outil.

Par exemple, dans l'image ci-dessous la force d'association entre "apprentissage" et "coopératif" est de 9.13635 en tant que la force de l'association entre "apprentissage" et "évoquée" est moins forte 7.55139.

Word List (Onglet liste de mots)

L’outil permet de créer un index des mots contenus dans les corpus et de les compter. Il permet aussi de trouver des mots dans la liste et leur information sur la fréquence. Pour voir les mots les plus fréquents on clique sur « start » sans écrire aucun mot. Vous pouvez trier les résultats par fréquence, par mot (alphabétiquement) ou par la fin du mot (la dernière lettre).

Il y existe aussi l’option pour inverser l’ordre, ce qui placera les mots dans une liste dans le sens contraire au sens alphabétique ou placera les mots les moins fréquents au début si on est en train de trier les résultats par fréquence.

Pour trouver un mot dans la liste on l’écrit dans la boîte de recherche et on clique sur « Search Only » de cette façon on trouvera la fréquence de ce mot spécifiquement.

Outil Keyword List (Onglet liste de mots-clés)

Il permet de trouver des mots dans le corpus qui ont une fréquence inhabituelle quand on les compare avec un document de référence. La mesure de cette fréquence inhabituelle est appelée « Keyness strenght ».
Pour la calculer on doit fournir une liste de mots de référence. Vous pouvez créer cette liste dans un bloc-notes par exemple et l’ajouter à l’outil.

Autres

Copie de résultats dans autre type des documents

Cette fonctionnalité est très pertinente pour l’analyse des données ou pour la présentation des résultats dans les documents finaux. Utilisez shift + clique pour sélectionner les lignes à copier (ctrl + c), vous pouvez en suite les coller dans un tableur ou dans un document texte.

Bouton « Clone results »

Permet la comparaison de résultats dans plusieurs fenêtres. Quand vous obtenez des résultats cliquez sur le bouton et une petite fenêtre s’ouvrira ce qui permet de effectuer une nouvelle recherche dans la fenêtre principale et comparer les résultats de la petite fenêtre.

Autres tutoriels en français

Les liens suivants vous propose de mini-tutoriel en français :

http://corpora.files.wordpress.com/2013/03/guide-franc3a7ais.pdf
http://cid.ens-lyon.fr/aide/ac_article.asp?fic=antconc.asp#_Toc407490673. Cette page présente à la fin des exemples d'expréssions régulières.

Exemple d'utilisation

L’exemple d’utilisation a pour objectif d'analyser un corpus en francais composé de cinq textes qui traitent de l'enseignement en ligne.

Dans notre cas il n'y a pas d'hypothèses à confirmer mais il s'agit plutôt d'une recherche exploratoire qui cherche à identifier les sujets traités dans ce type de textes.

Corpus utilisé

Le corpus est composé par les textes suivants, lesquels ont été transformés en format *.txt pour cet exercice. Pour transformer les formats *.pdf en *.txt vous pouvez utiliser un autre outil de la famille AntConc appelé AntFileConverter

Siméone, A.; Eneau, J. et Rinck, F. (2007 ). Scénario d’apprentissage collaborati à distance et en ligne: des compétences relationnelles sollicitées et/ou développées? TICE Méditerranée 2007. Université de Lyon. Disponible Ici
Crook, C. et al. (2004). La formation en ligne mieux que l'enseignement classique ... , Hermès, La Revue, 2 (n° 39), p. 69-76. Disponible pour lecture Ici
Sauvé, L.; Wright, A. et St-Pierre, C. (2004). Formation des formateurs en ligne : obstacles, rôles et compétences. Revue Internationale des Technologies en Pédagogie Universitaire, Conférence des recteurs et principaux des universités du Québec [CREPUQ], 2, pp.14-20. Disponible Ici
Degache, C. et Nissen, E. (2008). Formations hybrides et interactions en ligne du point d vue de l’enseignant : pratiques, représentations, évolutions. Vol. 11, n° 1: spécial Epal. p. 61-92. Disponible Ici
Nissen, E. (2005). Modalité d'interaction humaine dans la formation en ligne : son influence sur l'apprentissage. Savoirs, 2/(n° 8), p. 87-106. Disponible Ici

Utilisation de l’outil “Word List”

Une fois le corpus téléchargé en suivant les pas présentés dans le tutoriel ci-dessus, on a demandé à l'outil de faire une liste de mots. Cet outil nous permet d’avoir une vue rapide du contenu du corpus..On a choisi l’option de voir la liste par fréquence et on a traité les données sans faire attention à la casse, ce que nous permet d’arriver à des résultats plus exacts en relation au nombre de fois qu’un mot a été utilisé dans le corpus.

La première liste de mots contient des mots (de, la, des, en, et, les, à) qui sont sans interêt informatif.

En conséquence, on regarde rapidement la liste de mots et on crée une liste en format *.txt de 10 mots avec les termes qui pourraient nous donner plus d’information pour notre recherche exploratoire.

On inclut dans cette liste les mots suivants: "formation, ligne, dispositif, apprentissage, interaction, groupe, compétences, enseignement, travail, collaboratif”.

Pour effectuer la recherche de ces mots seulement, on va au menu "Tool Preferences" et dans la section "Word list range” on clique sur "use specific words below". Ici on peut télécharger la liste de mots créée en cliquant sur le bouton "open" (ou on peut les ajouter manuellement), en suite on clique sur "apply" et encore une fois sur "start".

L'outil nous montre les résultats pour ces 10 mots:

La fréquence de ces mots est intéressante malgré qu’on ait que 5 textes. En moyenne le mot formation apparaît 40 fois par texte et le mot dispositif apparaît 7 fois par texte. On voit clairement que les concepts tels que l’interaction ou les compétences sont de sujets fortement traités dans ces textes. Néanmois on n’a pas encore beaucoup d'informations car on ne sait pas de quel type d’interaction ou des compétences on parle.

Utilisation de l’outil “Concordance”

Ensuite on utilise l'outil "Concordance". Pour voir les concordances de 10 mots choisis on doit cliquer sur “Advanced” pour faire une recherche ciblée. Dans la petite fênetre de recherche avancée on clique sur "use specific words below". Ensuite on peut télécharger la liste de mots créée en cliquant sur le bouton "open" (ou on peut les ajouter manuellement), on clique sur "apply" et encore une fois sur "start”.

Utilisation de “Kwic sort”

L'outil présente les résultats au milieu et en bleu avec leur contexte autour. Pour répérer plus facilement le contexte des mots on utilise le “Kwic Sort”. On laisse les paramètres par défaut (1R, 2R et 3R), c’est-à-dire, on va poser notre attention sur le premier, deuxième et troisième mot à droite des mots choisis.

Après avoir regardé rapidement les résultats de l’outil, on a décidé de regarder spécifiquement le contexte des mots “interaction”, “apprentissage” et “compétences”. On a donc modifié les paramètres de la recherche avancée en effaçant tous les autres mots de la liste. On a obtenu 182 résultats.

Parmi les résultats on peut choisir ceux qui semblent les plus intéressants par rapport à chaque mot. L’intérêt depend dans ce cas de mots qui ajoutent de l’information, par exemple :

Interaction	Compétences	Apprentissage
accrue	visées	autodidacte
alternative	spécifiques	autogeré
différente	sollicités	collaboratif
dissymétrique	sociales	collectif
du groupe	représentatives	en ligne
en groupe	relationnelles	en groupe
en ligne	psychosociales	individuel
entre pairs	préalables	interactif
humaine	nécessaires	synchrone
interpersonnelle	préexistantes	asynchrone
orale	minimales	virtuel
plus rapide	métacognitives	à distance

Seulement en prenant 12 mots qui accompagnent les mots “interaction”, “compétences”, et “apprentissage” on trouve déjà plusieurs fils intéressants de recherche .

Utilisation de l’outil “Clusters/N-grams”

Pour cet exercise on choisit de cibler l’analyse sur les compétences. Pour résumer les résultats de ce mot on utilise l’outil “Clusters/n-grams”. On va dans la fênetre de l’outil et on écrit le mot “compétences” dans la boîte de recherche pour effectuer une recherche simple. Les premiers résultats ressemblent à ceux produit par l’outil “Concordance” mais ici on voit la fréquence dans laquelle le mot “compétence” est accompagné par d’autres mots.

(image clusters)

Interprétations

D’après ces résultats on peut faire quelques interprétations :

On peut dire que quand on parle de l’interaction dans l’enseignement en ligne il est important de la mettre en relation avec des concepts tels que la dissymétrie. On peut penser aussi à comment elle peut être différente/plus rapide/plus accrue que celle dans des contextes d’enseignement présentiel.

En ce qui concerne l’apprentissage on peut dire que dans l’enseignement en ligne il se caractérise par le fait d’être autodidacte/autogéré/collaboratif et qu’il peut être synchrone ou asynchrone.

Ces interpretations semblent faciles à élaborer mais il faut faire attention. Par exemple, en ce qui concerne les compétences on pourrait dire que les compétences relationnelles ont une grande importance car ils ont une fréquence de 11 fois dans le corpus comparées aux compétences informatiques qui ont une fréquence de 1. Néanmoins, il y a un danger à faire des interprétations en prenant seulement les liste de mots et leurs fréquences car on ne tient pas compte du contexte dans lequel ils se trouvent.

L’avantage d’AntConc est qu’on peut à n’importe quel moment regarder le contexte d’un mot seulement en cliquant dessus, cette action nous amène à la fenêtre “Concordance” où on voit le mot dans la phrase et si on clique dessus le mot à nouveau on va dans la fenêtre de l’outil “View file” qui nous permet de voir la totalité du texte où le mot se trouve. En utilisant ces outils on trouve que les compétences informatiques sont nécessaires : De plus, les compétences informatiques de base et celles liées au traitement de l’information sont considérées nécessaires par Grillet (1999) à toute formation à l’utilisation des TIC.

On peut suivre le même chemin avec tous les autres mots qu’on a décidé d’analyser. Ici il est important d’argumenter les interprétations qu'on fait sur les résultats de l’outil.

En résumé, on peut dire que l’outil AntConc est facile à utiliser et permet de mettre en relation les différents sujets des textes. Cependant, il faut être attentif aux interpretations trop rapides.

Références