¿Es posible crear un raspador web personalizado que no dependa de la fuente?

es difícil pero no imposible.

La mayoría de los marcos de raspado web le permiten ser algo liberal en la forma de extraer los datos que necesita. Debe intentar mantener sus selectores lo más simples posible para que la fuente pueda realizar algún nivel de cambios antes de que se rompa su raspador.

La otra opción es encontrar fuentes que hayan utilizado uno de los estándares de marcado legible por máquina para datos estructurados. Los 3 estándares principales para marcar datos estructurados en páginas web son:

* Microformatos
* Microdatos- (schema.org)
* RDFa

Microdata es el formato preferido de Google para datos estructurados al proporcionar “fragmentos enriquecidos” en el SERP; consulte Promover su contenido con marcado de datos estructurados. Esto significa que los propietarios de sitios a menudo exponen parte o la totalidad de sus datos correctamente marcados a uno de estos estándares para recibir algún tipo de beneficio SEO. Si puede raspar los datos utilizando uno de estos estándares, es más probable que incluso si la página de origen cambia significativamente, su raspador seguirá funcionando.

EDITAR:

Aquí hay un código de ejemplo para un raspador para ebay errm / scraping_ebay
He elegido algunas clases de aspecto bastante semántico aquí. En la práctica, estoy seguro de que algo así funcionaría bien durante años …

Sin embargo, dado el ejemplo de eBay, simplemente usaría allí la API. . .

DesarrolloDiseñoProgramación informáticaweb

Related Content

¿Dónde puedo encontrar los mejores tutoriales para C # .NET y ASP.NET? ¿Cuáles son los mejores sitios web donde puedo encontrar algunos proyectos de muestra con soluciones para poder practicar?

¿Qué debo usar en mi sitio web, AngularJS 1 o AngularJS 2?

¿Puedo editar el código HTML con WordPress.com o tengo que alojarlo en otro sitio y usar WordPress.org?

Cómo construir un sitio web de predicción en WordPress

¿Cuál es la mejor empresa de diseño web en Chicago?

¿Qué Windows es mejor?

¿Cuáles son las ventajas y desventajas de usar Node.js en comparación con la función asincrónica de servlet 3.0 de Java?

More Interesting

¿Hay alguna manera fácil de entender los elementos de posicionamiento en HTML?

¿Qué es la arquitectura desacoplada y cómo se implementa?

¿Cómo se conectan el front-end y el back-end?

¿Por qué la página web de la herramienta de validación del W3C no puede ser validada perfectamente por su validador?

Para desarrollar un servicio similar a Google Docs o hackpad, ¿qué tecnologías son necesarias / útiles?

¿Cuál es la razón por la cual la plataforma de programación web WebObjects de Apple nunca despegó entre las nuevas empresas Web 2.0?

¿Cómo integramos a la perfección los patrones de MVC front-end con las tecnologías del lado del servidor?

¿Cuál es la forma de hacer un sitio web de preguntas y respuestas como Quora? Soy un programador de 13 años. Necesito un tutorial.

¿Cuánto cuesta construir y mantener un sitio web como eBay?

¿Qué es mejor para la velocidad del sitio web, HTML estático vs JSON?

¿Qué necesito descargar para practicar JavaScript?

¿Hay algún complemento para el gráfico de precio objetivo en el lenguaje del lado del cliente?

¿Cuál es la diferencia entre las cuadrículas CSS, Flex Box y las cuadrículas proporcionadas por marcos como Bootstrap? Estoy tan confundida.

¿Alguna MacBook es buena para el desarrollo web y el desarrollo de aplicaciones de Android en comparación con Windows o Ubuntu?

Como desarrollador web en proceso, ¿cómo puedo socializar en Nueva York?

Web Analytics