Estoy respondiendo esta pregunta, ya que está etiquetada como “Web Scraping”.
Aquí hay enlaces a Python Script para raspar Tripadvisor.com para hoteles en una localidad y https://www.scrapehero.com/how-to-scrape-tripadvisor-com-hotel-details-using-python-and-lxml un simple scraper escrito en Python y LXML, que puede raspar los resultados de búsqueda por usted. Puede escalarlo haciendo ligeras modificaciones o portándolo a una biblioteca de raspado compleja como Scrapy. Este código fue escrito como parte de un Tutorial en ScrapeHero Cómo raspar TripAdvisor.com para hoteles en una ciudad usando Python
Antes de raspar
- ¿Cuáles son las diferencias entre NativeScript y Meteor.js? ¿Cuál es óptimo para desarrollar aplicaciones multiplataforma?
- ¿Qué piensan los desarrolladores de aplicaciones móviles de la aplicación Quora?
- ¿Cómo es Xamarian más eficiente en comparación con otras plataformas de desarrollo de aplicaciones móviles?
- ¿Cuál debo elegir: iOS, Android o Windows Mobile para desarrollar mi aplicación móvil?
- ¿Cuál es la mejor empresa de desarrollo de aplicaciones móviles del mundo?
Pero antes de decidirse a raspar, consulte su API. Tripadvisor tiene una API amigable para desarrolladores – API de contenido | TripAdvisor Developer Portal y también tienen widgets que puede adjuntar a su sitio web https://www.tripadvisor.com/Widgets. Si esto funciona para usted, úselo.
El raspado web no es divertido cuando estás buscando cientos de miles de páginas web. Te encontrarás con problemas que van desde el almacenamiento de datos hasta las prohibiciones de IP. No es algo en lo que una startup deba dedicar su tiempo, a menos que tenga tiempo y dinero.
En pocas palabras, el raspado a escala necesita
- Ejecuta los rascadores
- Almacenar los datos
- Rotación de IP, proxies y listas negras
- Verificaciones de calidad en datos
- Mantenimiento
Aquí está el artículo completo, que es demasiado grande para poner aquí. Raspado escalable hágalo usted mismo: cómo construir y ejecutar raspadores a gran escala