Cómo raspar detalles de una página web usando Scrapy

Hay muchas formas más fáciles de raspar disponibles en el mercado, pero aquí le sugiero una de las mejores compañías para el raspado de datos web llamada “NETUCON”

La compañía “Netucon” con sede en Ahmedabad (India) ofrece la solución definitiva a sus clientes y servicios de desarrollo de software con innovación y creatividad. Fundada por un equipo altamente experimentado de TI y profesionales de administración, Netucon comprende los diversos requisitos del cliente para la tecnología y los negocios, por lo tanto, proporciona las soluciones a nuestros valiosos clientes, tanto en la India como en el extranjero.

Son expertos en brindar servicios como:
1. Proyectos de desarrollo .net (Microsoft .NET Framework 1.1 / 2.0 / 3.0 / 3.5 / 4.0 / 4.5)
2. Integración de comercio electrónico (integración de Amazon, integración de Ebay, integración de Shopify, integración de Volusion)
3. Raspado de datos web (Yelp, solo marque, LinkedIn, sitios web del gobierno, raspado de sitios de redes sociales, etc.)
4. Integración rápida de libros
5. Integración de software de contabilidad
6. Desarrollo de sitios web personalizados
7. Desarrollo de ERP
8. Entrada de datos
9. Minería de datos
10. Generación de leads en “LinkedIn, Twitter y Facebook”.
11. BPO: – Procesamiento de datos
12. Marketing digital, etc.

Puede leer más sobre Netucon aquí: Inicio
También tienen desarrolladores que puedes contratar para hacer el trabajo por ti; su Skype es “netrocks7”

Intenté scrapy antes para extraer la información similar en Amazon. Sin embargo, encontré que Scrapy no era tan conveniente para mí, así que recurrí a otra herramienta de raspado web, Octoparse, para obtener ayuda y lo encontré realmente fácil y conveniente de usar.

Si está interesado, puede probar Octoparse y seguir el tutorial similar Cómo extraer información del producto de Amazon para obtener más información.

Espero que esto pueda ayudarte.

Quiero eliminar todos los enlaces de libros de Kindle de la página web a continuación.
Así que aquí tienes

desde scrapy.spider importar BaseSpider
from scrapy.selector import HtmlXPathSelector
desde amazon.items import AmazonItem

clase MySpider (BaseSpider):
nombre = “amazon”
allowed_domains = [” http://www.amazon.com“]
start_urls = [” http://www.amazon.com/s/ref=sr_pg_3?rh=n%3A133140011%2Cn%3A%21133141011%2Cn%3A154606011%2Cn%3A668010011%2Cn%3A158591011%2Cn%3A158592011&=A158592011&=A158592011 158591011 & ie = UTF8 & qid = 1403264902 “% 5D

def parse (auto, respuesta):
hxs = HtmlXPathSelector (respuesta)
títulos = hxs.select (“// h3 [@ class = ‘newaps’]”)
artículos = []
para títulos en títulos:
item = AmazonItem ()
item [“link”] = title.select (“a / @ href”). extract ()
items.append (item)
devolver los artículos

Si eres el primer contador de tiempo en el mundo del raspado y solo quieres hacer un raspado simple, te aconsejaría que comiences con beautifulsoup. Al principio, scrapy puede parecer un poco complicado.

A diferencia de Scrapy, Beautifulsoup es agradable a la vista.