Discussion:Web scraping

Extraction automatique du contenu -- Daniel K. Schneider (discussion) 11 novembre 2014 à 17:56 (CET)

Etant donné que la plupart des pages contiennent bcp de menus etc. il est intéressant de voir comment sortir juste le contenu. Il existe des algorithmes pour cela mais je ne sais pas dans quelle mesure ils sont fiables.

Vu dans http://cran.r-project.org/web/packages/tm.plugin.webmining/tm.plugin.webmining.pdf, fonction extractContentDOM:

Gupta et al., DOM-based Content Extraction of HTML Documents, http://www2003.org/cdrom/papers/refereed/p583/p583-gupta.html
http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
http://www.elias.cn/En/ExtMainText

Discussion:Web scraping

Extraction automatique du contenu -- Daniel K. Schneider (discussion) 11 novembre 2014 à 17:56 (CET)

Menu de navigation

Rechercher