Gracias Sanjay por el A2A.
En primer lugar, muy pocas personas tienen experiencia en la construcción de sistemas de archivo web . Por lo tanto, no lea las respuestas descaradas y déjese atrapar por ellas.
Para responder a la pregunta, no necesita ningún marco para el raspado web. Conmocionado !! Aquí es cómo:
- ¿Cuál es la mejor manera de reclutar desarrolladores web (HTML / CSS / JS) en el Área de la Bahía?
- Cómo obtener backlinks rápidamente para un sitio web
- ¿Qué es el HTML dinámico?
- ¿Cuáles son los mejores servicios de mapas de calor gratuitos o de bajo costo para las pruebas de usuario?
- Con Vue.js ganando popularidad cada vez más, ¿reemplazará a React.js como el framework JavaScript más popular?
de urllib.request import urlopen Solicitud de importación de urllib.request de subprocesos subproceso de importación desde bs4 import BeautifulSoup def get_links (solicitud): html = urlopen (solicitud) sopa = BeautifulSoup (html.read (), "lxml") print (soup.find_all ("a")) clase Crawler: def __init __ (self, urls = ()): self.urls = urls def crawl_and_store_html (self): si self.urls: para url en self.urls: si url: solicitud = Solicitud (url) thread = Thread (target = get_links, args = (request,)) thread.start () if __name__ == "__main__": c = Rastreador (URL = ["http://www.amazon.in/gp/aw"]) c.crawl_and_store_html ()
El fragmento de código anterior podría rastrear cualquier página web y obtener todos los enlaces href asociados a ella. Ver fácil !!
Pero, este podría no ser su requisito, ya que podría estar buscando rastrear un gran conjunto de datos. Aquí es donde entra en juego el marco.
En cuanto a la pregunta, si pudiera mencionar una razón específica de por qué elige Python , me ayudaría a sugerirle mejores opciones.
Pero solo por la popularidad y el apoyo de la comunidad, Scrapy es su mejor opción, ya que la documentación es extremadamente simple de seguir .