Proyecto de extracción de datos web. ¿Cómo lo hago?

Recomiendo encarecidamente las herramientas de raspado web si supiera poco sobre programación. La mayoría de las herramientas de raspado web podrían tratar con diferentes sitios web para raspar casi todos los datos web en línea (consulte el Top 30 Software gratuito de raspado web para obtener más información).

Personalmente, recomendaría la herramienta de raspado web Octoparse directamente, una herramienta de extracción de datos gratuita y fácil de usar que podría transformar automáticamente datos no estructurados o semiestructurados en formatos estructurados. Si está interesado, podría intentarlo. Los tutoriales a continuación serían útiles para obtener la información que desea, condominios, direcciones, precios, etc.

Web Scraping información del hotel de Google Maps

Scraping Reseñas de hoteles de Tripadvisor.com

Raspe los datos de una lista de URL creando un raspador simple

Raspe los datos de YellowPages.Com

Si tiene más preguntas al usar Octoparse, puede unirse al Octoparse Users Club en Facebook directamente para obtener más ayuda.

Espero que esto pueda ayudarte.

Las mejores bibliotecas para el raspado web usando Python serían BeautifulSoup + Requests. Alternativamente, puede usar el marco de raspado Scrapy. Si desea extraer contenido generado dinámicamente, deberá usar Selenium y un navegador sin cabeza como PhantomJS o Chromedriver. En cuanto a tu segunda pregunta. Sí, los mapas de Google ciertamente se pueden raspar. Acabo de terminar ayer un raspador de Google Maps para un cliente.