Si el sitio proporciona una biblioteca API de Python que le brinda toda la información que necesita, entonces úsela.
Si eso no es suficiente y tiene que raspar los sitios usted mismo, elija el que le resulte más cómodo. Para obtener la máxima flexibilidad, es posible que desee ejecutar el raspador web como un proceso separado y definir algún canal de comunicaciones (archivos, sockets TCP, etc.) entre este y su lógica principal. De esta forma, el raspador en sí puede escribirse con las herramientas que sean apropiadas para la tarea, en lugar de verse obstaculizado por las instalaciones faltantes en su plataforma principal.
Como nota al margen, un número cada vez mayor de sitios se está volviendo difícil de imposible de eliminar, ya que utilizan una gran cantidad de JavaScript para recuperar y generar el resultado final que vería si usa un navegador real. Para eso, su raspador probablemente se basaría en un navegador sin cabeza con una interfaz de secuencias de comandos, como PhantomJS o ghost.py (no conozco un equivalente de Haskell).
- Mi Ajax se ejecuta correctamente, los valores se pasan al otro JSP pero cuando intento mostrar el valor en un control en la página JSP, ¿muestra 'nulo'?
- Cómo crear un virus con PHP
- Estoy aprendiendo ROR y me preguntaba si los empleadores estarían interesados en ver varios algoritmos / programas que escribí, o si solo se preocupan por las aplicaciones de Rails específicamente. ¿Debo incluirlo?
- Cómo construir la interfaz del menú para un juego
- ¿Qué debo aprender primero, desarrollo web o WordPress? Quiero ganar dinero lo antes posible.