¿Dónde empiezo a construir un raspador web?

Primero, elija un idioma que proporcione las herramientas necesarias que necesitará. Me gusta usar Ruby debido a su extensa biblioteca de gemas para análisis y comunicación. Por lo general, mi objetivo para el raspado web es resolver el problema rápidamente, por lo que no reinventaré la rueda cuando ya existan bibliotecas. Me gusta usar Nokogiri para el raspado web y SMSEasy para enviar mensajes de texto. Dependiendo del idioma que use, es posible que necesite encontrar diferentes bibliotecas o incluso crear la suya propia.

En segundo lugar, intente desarrollar su utilidad como un script independiente. Intente descargar una página, analizarla y encontrar la información necesaria. Es probable que esto implique muchos ajustes, pero es mi parte favorita de crear un raspador web. Una vez que haya encontrado la información necesaria, puede incorporar mensajes de texto.

Tenga en cuenta que esta sección variará según el idioma que elija y la complejidad del sitio web. La conclusión principal al construir su utilidad es abordar los componentes de la utilidad paso a paso. Tendrá que resolver tres problemas principales: obtener los datos, analizarlos y comunicarlos a su teléfono.

Tercero, escribe pruebas . Es posible que incluso desee practicar el desarrollo basado en pruebas (TDD) y construir primero las pruebas. Probar su utilidad lo hará robusto, y será fácil saber si un cambio en el sitio web de registro romperá su raspador. ¡Solo ejecuta las pruebas para descubrirlo!

Como está interesado en crear una utilidad web, es posible que también desee incorporar la utilidad con un servidor web y ejecutarla utilizando un programador de trabajos para recibir información actualizada. ¡Esperemos que sea suficiente para ayudarlo a comenzar!

Si todavía no puede construir el raspador web usted mismo, puede probar las herramientas de raspado web sin conocimientos de codificación. Si está interesado, le recomendaría Octoparse. Y puede seguir los tutoriales para raspar los datos que desea. Según su descripción, recomendaría el tutorial Programar extracción de datos: obtenga datos en tiempo real para mostrarle cómo obtener los datos en tiempo real que desea.

Necesitará saber cómo codificar.

¡Suponiendo que lo hagas, entonces estás listo para irte! Puede comenzar a usar una API para automatizar el uso del navegador a través del código. Selenium es una API popular y en varios idiomas para automatizar los navegadores web, funciona con todos los populares.

Si desea algo que no necesita una ventana de navegador abierta en su máquina, entonces PhantomJS es otra buena solución. La desventaja aquí es que solo es compatible con JavaScript (a menos que combine phantomJS con selenio como se describe aquí), si no conoce JavaScript, deberá aprenderlo.

¡Buena suerte!