¿Cómo puede el web scraping eliminar un sitio web?

Técnicamente hablando, depende de cómo esté programado el servicio de raspado. Si el servicio de raspado está programado para realizar solicitudes concurrentes, que ocurren o existen simultáneamente al mismo tiempo, entonces probablemente ese tipo de solicitud se pueda ver como un ataque DDoS.

Por definición, el ataque DoS distribuido es de naturaleza distribuida y el ataque ocurre cuando varios sistemas inundan el ancho de banda o los recursos de un sistema de destino, generalmente uno o más servidores web. Tal ataque es a menudo el resultado de múltiples sistemas comprometidos (por ejemplo, una botnet) que inundan el sistema objetivo con tráfico.

Para una analogía, el servicio de raspado puede actuar como un atacante con múltiples solicitudes como esclavos y raspar los sitios de la víctima. Entonces, básicamente depende de cómo se programe el servicio de raspado y la decisión arquitectónica detrás de la implementación de dicho servicio.

Y, como otros han dicho, si tales solicitudes de raspado sincrónico se realizan con ese tipo de sitios que están mal alojados en una plataforma de alojamiento común, dichos sitios pueden eliminarse rápidamente.

Técnicamente, cada hilo de raspado es un visitante del sitio. El servidor necesita recursos para servir páginas a los visitantes: CPU, memoria, ancho de banda. Y cada visitante concurrente reduce la cantidad de recursos restantes, dependiendo de la “potencia” inicial del servidor, la calidad del código del servidor. Algunos sitios pueden servir a decenas de visitantes concurrentes, algunos cientos y miles.

Depende del hardware utilizado para alojar el sitio web y cuántos hilos está utilizando para raspar el sitio. En general, cuando raspa en un solo hilo no debería causar ningún problema para el sitio web, especialmente si hace pausas entre las solicitudes.

Si el raspado es intenso / lo suficientemente frecuente, podría sobrecargar el sitio.