¿Cuál es el mejor software que puedo usar para raspar el sitio web de Yoox?

Aquí hay una lista de las mejores herramientas de raspado web.

  • Scraper: Scraper es una extensión de Google Chrome para extraer datos de páginas web y hojas de cálculo.
  • Documentación de Beautiful Soup: para extraer datos de un sitio web. Es una biblioteca basada en Python llamada Beautiful Soup.
  • Apache Tika – Apache Tika – Para extraer HTML y texto.
  • feedparser: para analizar fuentes RSS y Atom.
  • Servicios de raspado web – Raspe los datos del sitio web
  • Usebobik: un raspador web basado en web.
  • Secuencias de comandos del navegador web y pruebas web y raspado web de iOpus
  • Programa macro, software de automatización de Windows. Software Macro y Grabadora Macro. Macro de Windows y software de automatización.
  • ScraperWiki
  • Un marco de código abierto de raspado web para Python
  • El | CommonCrawl
  • Rastreadores web personalizados, rastreo web potente y extracción de datos
  • PhantomJS | PhantomJS
  • Convextra | Extracción de datos web: inteligente para usar un potente raspado web.
  • Software y servicios de extracción de datos.

Además de estas herramientas enumeradas, puede echar un vistazo a un tablero llamado
Herramientas de datos aquí en Quora.

Usaría “wget ​​–mirror” y “xsltproc”.

También hay herramientas especializadas como Scrapy, un marco de código abierto de raspado web para Python.

Pero tengo objeciones éticas contra el raspado del sitio. Si un sitio desea que use su contenido, debe proporcionar una API de servicios web.

Bueno, tal vez podrías probar Octoparse, ya que proporciona tutoriales detallados para estudiantes.

Y creo que podría seguir el tutorial Scrape Websites with Infinitely Scrolling, ya que el sitio web objetivo en este tutorial es el sitio web jabong, que es muy similar al sitio web de Yoox.

Espero que esto pueda ayudarte.