¿Qué tan efectivo es pyscrappy para raspar todo desde una página incluyendo js?

No le daré toda la información de por qué, en mi opinión, es Top Dog y las bibliotecas de minería de datos para Python, pero en cuanto a JavaScript, realmente solo depende de dónde se está generando ese JavaScript … Como si fuera una línea dura en el sitio web o siendo generado dinámico? Cuando se genera la práctica común dinámica dos, a continuación, agregue módulos adicionales para la representación de los cambios de HTML en su totalidad … A veces es tan fácil #, desde la página que está desglosando, solicite al iframe de la url de donde se genera el script dinámico pero eso no es realmente seguro de que va a obtener el país que desea porque en algún momento incluso el script en eso se genera dinámicamente .ncluded.

Librerías un módulo adicional para hablar y salpicar, selenio, PhantomJs … etc, etc. la variedad de controladores web … Incluso puede usar pyQt para crear un navegador de algún tipo … Todo esto solo para representar la totalidad del HTML

“Incluyendo js” significa ajax? Puedes combinar scrapy con phantomjs y / o selenium.

Tus necesidades; Tubería irregular y rendimiento de python incorporado.

Efectivo? ¡Sí! Puede obtener cuotas de apuesta completas de bwin con solo 100 ms de retraso. (Yo si)

Se trata de tu algoritmo. Scrapy lo suficientemente flexible.

Cualquier lenguaje de programación es lo suficientemente efectivo como para raspar cualquier contenido textual. Si no es programador, puede intentar utilizar algunos servicios en línea como Diggernaut.