Cómo construir una aplicación web que hace scraping web

Tenga en cuenta que el uso de un rastreador para extraer datos de un sitio web puede hacerse legalmente en las relaciones comerciales relevantes. En algunas circunstancias y en algunas jurisdicciones específicas, el rastreo puede estar en conflicto con la regulación aplicable o en violación de los términos particulares de servicio del sitio rastreado. Por lo tanto, antes de participar en actividades de rastreo de cualquier tipo, debe consultar con un abogado autorizado para brindar asesoramiento legal en el territorio y leer cuidadosamente los términos de servicio aplicables.

Una red de proxy empresarial tiene más de 20 millones de IP residenciales que no se identifican como Proxies / Tor. La arquitectura, tiene una capa de gestión de rotación de IP incorporada, le permite enviar sus solicitudes HTTP a través de una red P2P a través de millones de IP en cada país y cada ciudad del mundo.

Una vez me enfrenté a una situación similar para convertir mi spider / scrapper web en una aplicación web. Puedes ir por Flask o Django .

Ambos tienen sus propios beneficios. El frasco es más fácil y Django es popular.

Aprende Django desde aquí :

Tutorial de Django Girls

Aprenda Frasco desde aquí :

Bienvenido a frasco

Algo similar en Javascript podría hacerse usando CheerioJs / PhantomJs para el desguace y luego NodeJs para convertirlo en una aplicación web.

Espero que ayude 🙂

No me preocuparía por las altas cargas al inicio, incluso si su aplicación será popular, tomará un tiempo hasta que obtenga muchos usuarios, incluso puede cambiar totalmente la concepción de su aplicación varias veces antes de tener éxito 🙂

Pero algunas cosas que puede implementar al inicio, por ejemplo, puede almacenar en caché los datos de su lado que viven algún tiempo para que no obstaculice los sitios web de origen con la misma solicitud una y otra vez.

Otra posible solución es recopilar todos los datos de productos que necesita de todas las fuentes y mantenerlos en su base de datos local, y actualizarlos, digamos semanalmente. Entonces su aplicación funcionará con su base de datos y no necesita raspar datos sobre la marcha. También le permitirá usar datos para análisis, por ejemplo, puede rastrear tendencias.

Mert Aközcan , la solicitud suya se trata de escalar sus scripts para convertirse en una aplicación web . No escribo aplicaciones web, sin embargo, podría recomendarle que use subprocesos en python para poder ejecutar scripts en paralelo. Por lo tanto, realiza ejecuciones paralelas. Vea un ejemplo aquí.

Solo usa la herramienta correcta. Puede raspar los datos de cualquier sitio web.

Le sugiero que lea este artículo y también siga los consejos mencionados antes de raspar.

Cómo raspar datos del sitio web utilizando herramientas de Web Scraper