¿Es posible crear un raspador web personalizado que no dependa de la fuente?

es difícil pero no imposible.

La mayoría de los marcos de raspado web le permiten ser algo liberal en la forma de extraer los datos que necesita. Debe intentar mantener sus selectores lo más simples posible para que la fuente pueda realizar algún nivel de cambios antes de que se rompa su raspador.

La otra opción es encontrar fuentes que hayan utilizado uno de los estándares de marcado legible por máquina para datos estructurados. Los 3 estándares principales para marcar datos estructurados en páginas web son:

* Microformatos
* Microdatos- (schema.org)
* RDFa

Microdata es el formato preferido de Google para datos estructurados al proporcionar “fragmentos enriquecidos” en el SERP; consulte Promover su contenido con marcado de datos estructurados. Esto significa que los propietarios de sitios a menudo exponen parte o la totalidad de sus datos correctamente marcados a uno de estos estándares para recibir algún tipo de beneficio SEO. Si puede raspar los datos utilizando uno de estos estándares, es más probable que incluso si la página de origen cambia significativamente, su raspador seguirá funcionando.

EDITAR:

Aquí hay un código de ejemplo para un raspador para ebay errm / scraping_ebay
He elegido algunas clases de aspecto bastante semántico aquí. En la práctica, estoy seguro de que algo así funcionaría bien durante años …

Sin embargo, dado el ejemplo de eBay, simplemente usaría allí la API. . .