« Tutoriel koRpus » : différence entre les versions
Aller à la navigation
Aller à la recherche
mAucun résumé des modifications |
mAucun résumé des modifications |
||
Ligne 6 : | Ligne 6 : | ||
|pages_prérequises=Text mining | |pages_prérequises=Text mining | ||
}} | }} | ||
Korpus est | |||
== Introduction == | |||
Korpus est bibliothèque [[R]] d'analyse de textes, spécialisée pour la construction d'indices à partir d'une représentation linguistique de textes. | |||
; Sites et documentation principaux | |||
: cran.r: [http://cran.r-project.org/web/packages/koRpus/ koRpus: An R Package for Text Analysis] | |||
: [http://reaktanz.de/?c=hacking&s=koRpus Homepage] | |||
: [http://www.rdocumentation.org/packages/koRpus koRpus] | |||
: [http://r.reaktanz.de/pckg/koRpus/koRpus_vignette.pdf koRpus_vignette.pdf] | |||
: [http://r.reaktanz.de/pckg/koRpus/koRpus.pdf koRpus.pdf] | |||
: Description: A set of tools to analyze texts. Includes, amongst others, functions for automatic language detection, hyphenation, several indices of lexical diversity (e.g., type token ratio, HD-D/vocd-D, MTLD) and readability (e.g., Flesch, SMOG, LIX, Dale-Chall). Basic import functions for language corpora are also provided, to enable frequency analyses (supports Celex and Leipzig Corpora Collection file formats) and measures like tf-idf. | |||
== Préparation == | |||
; Prérequis | |||
* Idéalement la grande majorité des analyses exigent qu'un texte soit décomposé en composants '''Part-of-speech''' (POS) et il faudrait faire fonctionner le logiciel TreeTagger pour cela (voir qqs. indications dans la section [#Installation|Installation]. Alternativement on peut utiliser un "tokeniser" interne qui coupe en "tokens" et identifie mots, nombres, ponctuations et abréviations. Ce dernier suffit pour calculer des formules de lisibilité, mais donne des résultats moins intéressants pour les autres indices. | |||
* Certaines formules de lisibilité exigent des listes de mots. Ces listes sont sous copy-right on règle générale, mais on peut les importer avec un simple fichier texte, un mot par ligne (encodé en UTF-8) | |||
* Les analyses de fréquences nécessitent un corpus au format ''Celex'' ( Leipzig Corpora Collection (Quastho�, Richter, & Biemann, 2006) | |||
== Installation == | == Installation == | ||
Ligne 13 : | Ligne 34 : | ||
* Par contre, pour pouvoir pleinement profiter il faut aussi installer/configurer Treetagger et qui nécessite aussi l'installation du langage Perl. Les liens sont disponibles dans la documentation de ce paquet. | * Par contre, pour pouvoir pleinement profiter il faut aussi installer/configurer Treetagger et qui nécessite aussi l'installation du langage Perl. Les liens sont disponibles dans la documentation de ce paquet. | ||
Sous Ubuntu, on peut installer Treetagger de la façon suivante: | Sous Ubuntu, on peut installer Treetagger de la façon suivante (enfin il faudrait aussi vérifier que ce ne soit pas fait automatiquement par la [http://r.reaktanz.de/pckg/koRpus/deb_repo.html distribution Debian]. Nous, on a installé koRpus via R-Studio | ||
* Installer Perl si ce n'est pas déjà fait | * Installer Perl si ce n'est pas déjà fait | ||
: sudo apt-get install perl | : sudo apt-get install perl | ||
Ligne 32 : | Ligne 53 : | ||
! SENT ! | ! SENT ! | ||
</source> | </source> | ||
Korpus semble aussi marcher avec [http://rkward.sourceforge.net/wiki/Main_Page RKWard], une IDE/GUI pour R | |||
== Liens et bibliographie == | |||
=== Bibliographie === | |||
* Michalke, M. (2012, April). koRpus -- ein R-paket zur textanalyse. Paper presented at the Tagung experimentell arbeitender Psychologen (TeaP), Mannheim. | |||
* Helmut Schmid (1995): Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland. |
Version du 24 novembre 2014 à 17:19
Tutoriels R | |
---|---|
▲ | |
◀▬ | |
⚐ brouillon | ☸ |
⚒ 2014/11/24 | |
Prérequis | |
Sous-pages et productions: |
Introduction
Korpus est bibliothèque R d'analyse de textes, spécialisée pour la construction d'indices à partir d'une représentation linguistique de textes.
- Sites et documentation principaux
- cran.r: koRpus: An R Package for Text Analysis
- Homepage
- koRpus
- koRpus_vignette.pdf
- koRpus.pdf
- Description: A set of tools to analyze texts. Includes, amongst others, functions for automatic language detection, hyphenation, several indices of lexical diversity (e.g., type token ratio, HD-D/vocd-D, MTLD) and readability (e.g., Flesch, SMOG, LIX, Dale-Chall). Basic import functions for language corpora are also provided, to enable frequency analyses (supports Celex and Leipzig Corpora Collection file formats) and measures like tf-idf.
Préparation
- Prérequis
- Idéalement la grande majorité des analyses exigent qu'un texte soit décomposé en composants Part-of-speech (POS) et il faudrait faire fonctionner le logiciel TreeTagger pour cela (voir qqs. indications dans la section [#Installation|Installation]. Alternativement on peut utiliser un "tokeniser" interne qui coupe en "tokens" et identifie mots, nombres, ponctuations et abréviations. Ce dernier suffit pour calculer des formules de lisibilité, mais donne des résultats moins intéressants pour les autres indices.
- Certaines formules de lisibilité exigent des listes de mots. Ces listes sont sous copy-right on règle générale, mais on peut les importer avec un simple fichier texte, un mot par ligne (encodé en UTF-8)
- Les analyses de fréquences nécessitent un corpus au format Celex ( Leipzig Corpora Collection (Quastho�, Richter, & Biemann, 2006)
Installation
- Le paquet koRpus est disponible via R
- Par contre, pour pouvoir pleinement profiter il faut aussi installer/configurer Treetagger et qui nécessite aussi l'installation du langage Perl. Les liens sont disponibles dans la documentation de ce paquet.
Sous Ubuntu, on peut installer Treetagger de la façon suivante (enfin il faudrait aussi vérifier que ce ne soit pas fait automatiquement par la distribution Debian. Nous, on a installé koRpus via R-Studio
- Installer Perl si ce n'est pas déjà fait
- sudo apt-get install perl
- Créer un répertoire, par exemple tree-tagger
- Télécharger tous les fichiers indiqués dans le manuel
- sh install-tagger.sh
- Editer le fichier ~/.bashrc et ajouter (par exemple)
- export PATH=/home/votre_login/tree-tagger/cmd:/home/votre_login/tree-tagger/bin:$PATH
- Tester:
echo 'Vive big brother!' | tree-tagger-english
reading parameters ...
tagging ...
finished.
Vive NP Vive
big JJ big
brother NN brother
! SENT !
Korpus semble aussi marcher avec RKWard, une IDE/GUI pour R
Liens et bibliographie
Bibliographie
- Michalke, M. (2012, April). koRpus -- ein R-paket zur textanalyse. Paper presented at the Tagung experimentell arbeitender Psychologen (TeaP), Mannheim.
- Helmut Schmid (1995): Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland.