Tutoriel tm text mining package/lire pages web script

De EduTech Wiki
< Tutoriel tm text mining package
Révision datée du 4 décembre 2014 à 15:17 par Daniel K. Schneider (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche
library(tm)
#Une longue procédure pour avoir une liste d'articles dans un string

URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...")

#On construit le corpus
# wiki.source <- URISource(URL_list)
wiki.source <- Corpus(URISource(URL_list), readerControl = list(language="fr"))
# Vérification
wiki.source
 
#Inspecter le corpus
inspect(VCorpus(wiki.source))