AntConc

Analytique et exploration de données
Module: Outils text mining

⚐ à améliorer	☸ débutant
⚒ 2014/12/17	⚒⚒ 2014/11/19
Voir aussi
Text mining avec R

Description

Le logiciel Antconc est un concordancier gratuit développé par le professeur Laurence Anthony actuellement à l’Université Waseda au Japon. Le concordancier traite de l’identification automatique de la structure de textes qui peut être appliquée à la recherche en général. La démarche avec ce logiciel va du général au particulier. Il est largement utilisé dans l’analyse des corpus en linguistique mais il peut être utilisé dans tous les domaines.

AntConc peut être utilisé avec Windows, Macintosh et Linux.

Langues acceptés

L’outil peut être utilisé pour l’analyse de textes dans la plupart des langues y compris les langues asiatiques comme le japonais, le coréen et le chinois. Il prend en charge des langues gérées par le codage UTF8.

Formats

Le logiciel travaille avec les textes bruts, les textes balisés ou les textes annotés. On peut analyser des fichiers simples ou des corpus de plusieurs fichiers.
Le logiciel prend en charge les formats *.txt, *.html et *.xml.

Définitions importants

Concordancier

Le concordancier ou logiciel de concordance est un outil de référence très utile aux linguistes qui permet de faire la recherche dans un corpus d'un mot accompagné de son contexte, que ce soit pour attester son usage ou l'étudier. ** 1

Concordance

Répertoire des exemples rencontrés pour chaque mot donnant chaque occurrence dans un contexte minimal.

Corpus

Ensemble des textes authentiques qui suivent des critères précis pour un objectif d’étude défini et qui se trouve le plus souvent au format électronique.

N-Gram

Sous-séquence de n éléments construite à partir d'une séquence donnée.

Prix

Téléchargement gratuit : Homepage AntConc
Il n’y a pas besoin d’installation, ce logiciel fonctionne avec un fichier exécutable.

Ecran principal

Dans l’espace au milieu on peut voir les mots dans leurs contextes à n’importe quel moment simplement en cliquant sur le mot.
La boîte de recherche sauvegarde automatiquement les recherches, on peut trouver un mot ou une expression rationnelle utilisée auparavant avec les flèches qui montent et descendent sur le clavier.

Recherche basique

On peut rechercher des mots ou des phrases. Les résultats seront présentés avec un petit contexte dans l’espace central de la fenêtre de travail.

Recherche avancée

On peut utiliser de liste de mots pour faire des recherches spécifiques et on peut décider le nombre de mots qui accompagnent les mots qu’on recherche.

Menus

File (Fichier)

On trouve dans les sous-menus l’option pour ouvrir et fermer un fichier ou un dossier. On peut également utiliser la fonctionnalité pour effacer les résultats obtenus avec tous les outils ou avec un outil en particulier. L’outil permet d’enregistrer ou d’exporter les résultats en format *.txt, *.hmtl ou *.xml.

Global Settings (Paramètres généraux)

Dans ce menu on trouve sept catégories. On peut choisir l’encodage des caractères, les couleurs des mots présentés dans les résultats, on décide si on veut ou non montrer l’extension des fichiers et on définit le type de fichier avec lequel on va travailler. Dans la catégorie de police on peut choisir le type et la taille pour la visualisation des fichiers, des résultats et du texte de la recherche. Dans la catégorie tags (balises) on décide si on veut cacher ou montrer les différents types de balises. On peut aussi définir les tokens (les unités linguistiques qui portent du sens). En plus, les Wild cards (les métacaractères) sont des symboles qui permettent de faire de recherches plus rapides, ces symboles peuvent être utilisés dans la plupart des outils/onglets. (image)

Tool preferences (Préférences de l’outil)

Dans ce menu on peut personnaliser chaque outil/onglet et décider le type d’information qu’on veut chercher et la façon de le présenter.

Help (Aide)

Ce menu offre deux types d’information. La première information est un manuel du logiciel en format *.pdf qui s’ouvre en cliquant sur l’option « read me » (« voir le fichier »). La deuxième information parle du logiciel directement, de sa version, de sa date de diffusion et du développeur.

Outils/Onglets

Les différents outils du logiciel se trouvent dans les onglets au-dessus de l’espace de résultats. La recherche des mots place toujours le mot résultant au milieu de l’écran. On peut regarder le contexte des mots en utilisant la barre gauche/droite.

Concordance (Onglet de concordance)

Cet outil permet de faire la recherche par mot et il montre les mots à gauche et à droite du mot cherché. Pour voir un peu plus de contexte du mot on peut augmenter le nombre de caractères de chaque côté en cliquant sur les flèches de l’option « Search window size ». L’option « sort » (trier) permet d’identifier des modèles dans les textes. Dans cet onglet on peut trier les résultats par « kwic », on peut identifier plusieurs mots à gauche et à droite des résultats et on peut décider de prendre en compte des majuscules.
On peut aussi faire des recherches à l’aide des expressions régulières.

Concordance Plot (Onglet mesure de la concordance)

Cet onglet a des caractéristiques identiques à l’outil « Concordance » mais la présentation des résultats est différente. Avec cet outil on peut voir les résultats d’une recherche par fichiers et leur emplacement dans les fichiers. Pour voir plus en détail on peut utiliser la fonctionnalité « zoom ». Parmi les limites de cet outil on trouve qu’il n’y a pas la fonctionnalité pour comparer les résultats. On ne peut pas non plus sauvegarder l’information, si on veut sauvegarder il est nécessaire de faire une capture d’écran.

View File Tool (Onglet de visualisation de fichiers)

Cet outil permet de voir chaque fichier individuellement et de faire des recherches à l’intérieur. On peut passer d’une recherche dans l’outil « concordance » à l’outil « view file » et revenir.

Clusters tool (Onglet de groupes)

Cet outil permet de chercher des modèles de 2 ou 3 mots qui apparaissent immédiatement à gauche ou à droite du mot cherché et de classer les résultats par fréquence par exemple. L’outil peut être également utilisé pour résumer les résultats de l’outil « concordance » ou de l’outil « concordance plot ». On peut ici également comparer les résultats. On délimite la recherche par rapport à la taille, à la fréquence et au nombre de fichiers dans lesquels on trouve le mot. On peut aussi décider de montrer les mots qui l’accompagnent du côté gauche et du côté droit.

Sort by pro (trier par probabilité)

Cette fonctionnalité donne la probabilité qu’a le deuxième mot d'apparaître après le premier.

Outil N-Grams

L’outil permet de scanner tout le corpus par groupes de mots (clusters) de différentes tailles. Il permet de trouver des expressions communes dans le texte sans spécifier la recherche. L’outil est très pertinent quand on veut regarder les contextes sans avoir une hypothèse à valider. Il peut aussi montrer de nouveaux résultats qu’on n’avait pas prévu dans notre recherche. Collocates tool (Onglet des coocurrents): permet de chercher des mots qui ont souvent une connexion ou une association. Les résultats montrent les mots qui apparaissent dans le fichier selon les paramètres choisis. On peut choisir la fréquence minimale d’association entre les mots.
Pour la visualisation des résultats l’outil doit générer une liste de mots (outil Word List), c’est la raison pour laquelle une boîte de dialogue peut s’ouvrir pour nous le demander. On doit seulement cliquer sur « ok » pour voir les résultats de l’outil.

Word List (Onglet liste de mots)

L’outil permet de compter tous les mots dans le corpus. Il permet aussi de trouver des mots dans la liste et leur information sur la fréquence. Pour voir les mots les plus fréquents on clique sur « start » sans écrire aucun mot. On peut trier les résultats par fréquence, par mot (alphabétiquement) ou par la fin du mot (la dernière lettre). Il y existe aussi l’option pour inverser l’ordre, ce qui placera les mots dans une liste dans le sens contraire au sens alphabétique ou placera les mots les moins fréquents au début si on est en train de trier les résultats par fréquence.

Pour trouver un mot dans la liste on l’écrit dans la boîte de recherche et on clique sur « Search Only » de cette façon on trouvera la fréquence de ce mot spécifiquement.

Lemma

La racine d’un mot. Une liste de lemmas inclut les mots et ses inflexions.

Word list range

On choisit seulement quelques mots dont on veut voir la fréquence. Il y a la possibilité d’inclure une «stop list ».

Outil Keyword List (Onglet liste de mots-clés)

Il permet de trouver des mots dans le corpus qui ont une fréquence inhabituelle quand on les compare avec un document de référence. La mesure de cette fréquence inhabituelle est appelée « Keyness strenght ».
Pour la calculer on doit fournir une liste de mots de référence. On peut créer cette liste et l’ajouter à l’outil.

Autres

Copie de résultats dans autre type des documents

Cette fonctionnalité est très pertinente pour l’analyse des données ou pour la présentation des résultats dans les documents finaux. Utilisez shift + clique pour sélectionner les lignes à copier (ctrl + c), vous pouvez en suite les coller dans un tableur ou dans un document texte.

Bouton « Clone results »

Permet la comparaison de résultats dans plusieurs fenêtres.

Références

AntConc

Sommaire

Description

Langues acceptés

Formats

Définitions importants

Concordancier

Concordance

Corpus

N-Gram

Prix

Ecran principal

Recherche basique

Recherche avancée

Menus

File (Fichier)

Global Settings (Paramètres généraux)

Tool preferences (Préférences de l’outil)

Help (Aide)

Outils/Onglets

Concordance (Onglet de concordance)

Concordance Plot (Onglet mesure de la concordance)

View File Tool (Onglet de visualisation de fichiers)

Clusters tool (Onglet de groupes)

Sort by pro (trier par probabilité)

Outil N-Grams

Word List (Onglet liste de mots)

Lemma

Word list range

Outil Keyword List (Onglet liste de mots-clés)

Autres

Copie de résultats dans autre type des documents

Bouton « Clone results »

Références

Menu de navigation

AntConc

Description

Langues acceptés

Formats

Définitions importants

Concordancier

Concordance

Corpus

N-Gram

Prix

Ecran principal

Recherche basique

Recherche avancée

Menus

File (Fichier)

Global Settings (Paramètres généraux)

Tool preferences (Préférences de l’outil)

Help (Aide)

Outils/Onglets

Concordance (Onglet de concordance)

Concordance Plot (Onglet mesure de la concordance)

View File Tool (Onglet de visualisation de fichiers)

Clusters tool (Onglet de groupes)

Sort by pro (trier par probabilité)

Outil N-Grams

Word List (Onglet liste de mots)

Lemma

Word list range

Outil Keyword List (Onglet liste de mots-clés)

Autres

Copie de résultats dans autre type des documents

Bouton « Clone results »

Références

Menu de navigation

Rechercher