« Data mining avec Rattle » : différence entre les versions
(Page créée avec « == Introduction == Rattle est un GUI graphique de data mining pour R, lancé depuis une console R == Cluster analysis hiérarchique de documents textes == Etapes: * Me... ») |
|||
Ligne 2 : | Ligne 2 : | ||
Rattle est un GUI graphique de data mining pour R, lancé depuis une console R | Rattle est un GUI graphique de data mining pour R, lancé depuis une console R | ||
== Introduction == | |||
Rattle est surtout un paquet pour le data mining numérique. Toutefois on peut (en principe) faire des analyses multi-variées assez intéressantes. | |||
Ceci dit, notre version plante assez souvent avec des messages pas très explicites comme: | |||
Error in .External.graphics(C_layout, num.rows, num.cols, mat, as.integer(num.figures), : | |||
invalid graphics state | |||
En outre, certaines opérations sont très lentes et on ne sait pas pourquoi ... | |||
== Installation == | |||
Rattle est un paquet R et s'installe (en principe) facilement. Pour chaque opération, Rattle risque de demander l'installation d'autres paquets. La plupart s'installent facilement | |||
Note importante pour Windows: Faire tourner R ou R-Studio sous administrateur. Dans le gestionnaire de fichiers s, clic droit sur l'icône et choisir "Run as administrator" (cherchez l'équivalent en français) | |||
<source lang="matlab"> | |||
> install.packages("rattle", lib="/usr/local/lib/R/site-library") | |||
> library (rattle) | |||
Rattle: A free graphical interface for data mining with R. | |||
Version 3.3.0 Copyright (c) 2006-2014 Togaware Pty Ltd. | |||
Type 'rattle()' to shake, rattle, and roll your data. | |||
> rattle () | |||
</source> | |||
== Cluster analysis hiérarchique de documents textes == | == Cluster analysis hiérarchique de documents textes == | ||
A priori c'est probablement mieux de faire tout dans R, car on a peu de contrôle sur les opérations. | |||
Etapes: | Etapes: | ||
* Mettre des fichiers nettoyés dans un répertoire (voir [[Tutoriel tm text mining package]]) | * Mettre des fichiers nettoyés dans un répertoire (voir [[Tutoriel tm text mining package]]) | ||
* Cliquer sur l'onglet Data et | * Cliquer sur l'onglet Data | ||
** Cocher "Corpus" | |||
** Décocher toutes les options car (a) sinon cela se plante et (b) vous avez déjà des fichiers "sacs de mots" bien nettoyés ! | |||
** Cliquer sur Execute (en haut à gauche) | |||
** Cocher Target data type = Categoric (pas comme dans le dessin ci-dessous !) | |||
[[Fichier:Rattle-read-corpus.png|600px|vignette|néant]] | [[Fichier:Rattle-read-corpus.png|600px|vignette|néant]] | ||
* Cliquer sur l'onglet "Cluster" | |||
** Cliquer sur Hierarchical | |||
Exemple: |
Version du 28 novembre 2014 à 18:33
Introduction
Rattle est un GUI graphique de data mining pour R, lancé depuis une console R
Introduction
Rattle est surtout un paquet pour le data mining numérique. Toutefois on peut (en principe) faire des analyses multi-variées assez intéressantes.
Ceci dit, notre version plante assez souvent avec des messages pas très explicites comme:
Error in .External.graphics(C_layout, num.rows, num.cols, mat, as.integer(num.figures), : invalid graphics state
En outre, certaines opérations sont très lentes et on ne sait pas pourquoi ...
Installation
Rattle est un paquet R et s'installe (en principe) facilement. Pour chaque opération, Rattle risque de demander l'installation d'autres paquets. La plupart s'installent facilement
Note importante pour Windows: Faire tourner R ou R-Studio sous administrateur. Dans le gestionnaire de fichiers s, clic droit sur l'icône et choisir "Run as administrator" (cherchez l'équivalent en français)
> install.packages("rattle", lib="/usr/local/lib/R/site-library")
> library (rattle)
Rattle: A free graphical interface for data mining with R.
Version 3.3.0 Copyright (c) 2006-2014 Togaware Pty Ltd.
Type 'rattle()' to shake, rattle, and roll your data.
> rattle ()
Cluster analysis hiérarchique de documents textes
A priori c'est probablement mieux de faire tout dans R, car on a peu de contrôle sur les opérations. Etapes:
- Mettre des fichiers nettoyés dans un répertoire (voir Tutoriel tm text mining package)
- Cliquer sur l'onglet Data
- Cocher "Corpus"
- Décocher toutes les options car (a) sinon cela se plante et (b) vous avez déjà des fichiers "sacs de mots" bien nettoyés !
- Cliquer sur Execute (en haut à gauche)
- Cocher Target data type = Categoric (pas comme dans le dessin ci-dessous !)
- Cliquer sur l'onglet "Cluster"
- Cliquer sur Hierarchical
Exemple: