« Tutoriel tm text mining package/lire pages web script » : différence entre les versions
Aller à la navigation
Aller à la recherche
(Page créée avec « <pre> library(tm) #Une longue procédure pour avoir une liste d'articles dans un string URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...") # un vecteur qui... ») |
mAucun résumé des modifications |
||
(Une version intermédiaire par le même utilisateur non affichée) | |||
Ligne 4 : | Ligne 4 : | ||
URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...") | URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...") | ||
#On construit le corpus | #On construit le corpus | ||
Ligne 15 : | Ligne 13 : | ||
#Inspecter le corpus | #Inspecter le corpus | ||
inspect(VCorpus(wiki.source)) | inspect(VCorpus(wiki.source)) | ||
</pre> |
Dernière version du 4 décembre 2014 à 15:17
library(tm) #Une longue procédure pour avoir une liste d'articles dans un string URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...") #On construit le corpus # wiki.source <- URISource(URL_list) wiki.source <- Corpus(URISource(URL_list), readerControl = list(language="fr")) # Vérification wiki.source #Inspecter le corpus inspect(VCorpus(wiki.source))