Discussion:Web scraping

Extraction automatique du contenu -- Daniel K. Schneider (discussion) 11 novembre 2014 à 17:56 (CET)

Etant donné que la plupart des pages contiennent bcp de menus etc. il est intéressant de voir comment sortir juste le contenu. Il existe des algorithmes pour cela mais je ne sais pas dans quelle mesure ils sont fiables.

Vu dans http://cran.r-project.org/web/packages/tm.plugin.webmining/tm.plugin.webmining.pdf, fonction extractContentDOM:

Gupta et al., DOM-based Content Extraction of HTML Documents, http://www2003.org/cdrom/papers/refereed/p583/p583-gupta.html
http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
http://www.elias.cn/En/ExtMainText

outils -- Damien Gauthier (discussion) 18 janvier 2015 à 19:42 (CET)

Merci Mattia pour ce travail, meme si d'une certaine manière cette page se recoupe avec celle spécifique pour R (le nombre de liens entre les deux pages est un indice), je trouve particulièrement bien fait, comme à chaque fois. J'ai surtout apprécié les liens vers l'outil PHP Goutte :) Je me permet juste une petite remarque concernant les liens vers la page "R", peut-etre pourrais-tu mettre directement le lien vers la section concernée plutot que le haut de la page,comme il y a de nombreux liens cela faciliterai les aller-retours de l'utilisateur je penses. En tout cas, encore bravo poru ton travail Damien

Discussion:Web scraping

Extraction automatique du contenu -- Daniel K. Schneider (discussion) 11 novembre 2014 à 17:56 (CET)

outils -- Damien Gauthier (discussion) 18 janvier 2015 à 19:42 (CET)

Menu de navigation

Rechercher