Crawler facile

Il y a quelque temps, j’avais mis de côté cet article http://korben.info/extraire-donnee-pages-web.html. Comme je vais pas mal de crawling, en ce moment je m’y suis intéressé.

Voici déjà la marche à suivre pour installer scrappy sur ubuntu:

Il est maintenant possible de faire fonctionner l’exemple:

 

Ce qui donne

A première vue, ça a l’air plus facile pour crawler qu’avec un script shell surtout si on a besoin de parser la page.