« Tutoriel tm text mining package/lire pages web script » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
(Page créée avec « <pre> library(tm) #Une longue procédure pour avoir une liste d'articles dans un string URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...") # un vecteur qui... »)
 
mAucun résumé des modifications
Ligne 15 : Ligne 15 :
#Inspecter le corpus
#Inspecter le corpus
inspect(VCorpus(wiki.source))
inspect(VCorpus(wiki.source))
</pre>

Version du 4 décembre 2014 à 00:09

library(tm)
#Une longue procédure pour avoir une liste d'articles dans un string

URL_list <- c("http://monsite/bla", "http://monsite/bleh", "...")
# un vecteur qui contient des strings vides ("")
URL_list <- character(length(titles))

#On construit le corpus
# wiki.source <- URISource(URL_list)
wiki.source <- Corpus(URISource(URL_list), readerControl = list(language="fr"))
# Vérification
wiki.source
 
#Inspecter le corpus
inspect(VCorpus(wiki.source))