Web Scraping: ¿Cómo puedo escribir un script para acceder a varias páginas web dentro del mismo dominio?

Hay todo tipo de formas en que podría resolver esto.

wget es una solución clásica.
wget http://www.abc.com/newfolder/A{100..123}.html

Un ejemplo de trabajo:
wget http://stackoverflow.com/questions/142650{0..9}

wget viene con muchas opciones ingeniosas, como --mirror , que le permite duplicar completamente los sitios, o la opción --page-requisites , que descarga todos los archivos necesarios para mostrar la página web. Consulte la página del manual: GNU Wget 1.13.4 Manual

O bien, puede escribir un script con un lenguaje que pueda realizar solicitudes HTTP y escribir archivos. Como node.js :

  var request = require ("solicitud"),
          fs = require ("fs")

 para (var i = 0; i <10; i ++) {
	 request ("http://stackoverflow.com/questions/142650" + i, function (err, res, body) {
		 var fname = this.uri.pathname.substring (this.uri.pathname.lastIndexOf ('/') + 1) + ".html";
		 fs.writeFile (fname, body)
	 })
 }

En este fragmento, utilicé el paquete de solicitud para simplificar el código. Sin embargo, podría usar http.

Creo que tal vez podría probar Octoparse, la herramienta de raspado web para extraer la información que desea, ya que hay un navegador incorporado en Octoparse en la extracción de datos y puede abrir diferentes páginas web con el mismo nombre de dominio y extraer la información útil que desea Las nuevas páginas web. Es muy fácil hacerlo, ya que podría seguir el tutorial de caso similar Cómo extraer información del producto de Amazon para extraer los detalles en las páginas web.

Espero que esto pueda ayudarte.

More Interesting

¿Cómo se usa la programación reactiva funcional para aplicaciones web?

¿Qué sitios web / aplicaciones web tienen buenos ejemplos de diseño para llenar formularios complicados?

¿Cuáles son algunos marcos web para crear sus propios mercados comerciales de bienes?

¿Qué es DOM en tecnologías web? ¿Cuáles son los usos de DOM?

¿Existe una aplicación de Twitter que le permita exportar los datos de sus seguidores a Excel, incluso si tiene más de 100,000 seguidores?

¿Cuáles son los marcos que pueden desarrollar aplicaciones CRUD móviles / web simples?

¿Cuáles son los mejores clientes de video chat?

¿Cuáles son los beneficios de usar Angular (2) o ReactJs en aplicaciones web empresariales?

¿Cuál es la diferencia entre aplicaciones personalizadas y aplicaciones de consola en la plataforma Salesforce?

¿Cuál es la diferencia entre una aplicación web y una aplicación de red?

Soy un recién graduado y no tengo 2 años de historial laboral, pero puedo crear aplicaciones web o aplicaciones de escritorio. ¿Cómo puedo pasar el RRHH y obtener una entrevista técnica para demostrar mis habilidades?

¿Para qué tipos de tareas son más adecuados los diferentes sitios de colaboración y crowdsourcing?

¿Cuál es el marco más útil para usar para aplicaciones del lado del cliente con una API de reposo de nodo?

¿Tienen preferencia los programadores que han trabajado tanto en la web como en dispositivos móviles y por qué?

¿Está muerto el elemento del formulario web?