¿Cómo haría alguien para descargar cada imagen en la web?

vale, veamos. Digamos que tiene una buena cantidad de máquinas con usted y una conectividad sólida para llevar a cabo tal tarea, incluso entonces no es el problema de la descarga sino el problema del almacenamiento. Si tiene ese tipo de espacio de almacenamiento, puede descargar las imágenes de la manera más directa. de lo contrario, tendrá que encontrar buenas maneras de hacer que cualquier imagen en Internet sea fácilmente accesible.

Puede comenzar almacenando las URL de todas las imágenes, y para averiguar si una URL le proporciona una imagen o no, puede enviar una solicitud HEAD y ver el encabezado devuelto. de esa manera ahorrará tiempo en redes y la necesidad de almacenar y eliminar innecesariamente el contenido del archivo de imagen.

puede guardar algunos espacios adicionales agrupando los dominios y la estructura de carpetas en una bonita estructura de árbol para evitar tener que repetir las direcciones URL.

Suponiendo que Internet sigue vivo, este enfoque básicamente le permite comprimir los datos sin procesar de Internet en términos de las ubicaciones a las que puede acceder en un momento posterior. Pero el defecto inherente es que esta ubicación puede cambiar más adelante.

Para eso, puede ejecutar algunos algoritmos de ML para decidir si una url dada es un enlace permanente o un enlace dinámico. luego almacene el enlace permanente y puede descargar la imagen correspondiente a los enlaces dinámicos. aún ahorrará mucho en necesidades de almacenamiento.

-> Ahora los detalles sobre este ML algo pueden ser difíciles de entender. Definitivamente, tendrá que pasar algún tiempo para encontrar una buena técnica.

Si todas las imágenes con enlaces dinámicos siguen siendo demasiado para usted, puede encontrar algunas formas inteligentes de alcanzarlas más adelante, observando de cerca cómo las alcanzó en primer lugar. debe organizar la existencia de enlaces de anclaje que son enlaces permanentes y luego examinar las formas en que funciona la interfaz de usuario, es decir. usando js y css, y cómo ejecutar js selectivos en una página para encontrar una imagen y tener un acceso persistente a ella.
-> Estas técnicas también requerirán algo de tiempo. básicamente tendrá que modelar un promedio y cómo funciona la tendencia actual de la interfaz de usuario web para facilitar la experiencia del usuario. y haga que su rastreador actúe como si fuera un usuario que solo busca en una página y hace clic en los botones más grandes y en un botón junto a una imagen que dice siguiente, etc.

Ahora incluso puede que necesite visitar todas y cada una de las URL para establecer la existencia de una imagen en algún lugar. Algunas técnicas de inteligencia artificial se pueden utilizar para evitar tener que enviar una solicitud HEAD a todas y cada una de las URL de la red. como puede visitar una página de directorio en la web que enumera todas estas imágenes en esa carpeta, entonces tiene una buena posibilidad de que todas sean imágenes de trabajo, si dice que visita el 10% de ellas de manera aleatoria con todos los buenos éxitos.

Pueden ser otras formas de encontrar patrones en las URL para llegar a una base de datos completa de imágenes simplemente solicitando una solicitud de vista de página de carpeta para esa ubicación.

la mejor oportunidad para que puedas hacer algo así sería tener una buena idea de dónde las personas en la web te ayudarán a organizar las imágenes de la web y al mismo tiempo te darán acceso a ella y pueden ser suficientes ingresos publicitarios para que usted pueda comprar capacidad de almacenamiento para realmente almacenar todas esas imágenes. Encontrar algo así no es exactamente imposible, considerando la situación actual de la organización de la imagen. la estructura en imágenes y por ese motivo videos de la web es lo que era para el texto antes de Google.

Si quieres seguirlo, me encantaría hablar más sobre ello.