Si quisiera crear un sitio que comparara el precio de los lápices, ¿podría raspar legalmente sitios como Staples o Walmart para obtener precios diferentes?

No hay nada inherentemente ilegal en el raspado de datos puestos a disposición del público. Sin embargo, surgen complicaciones si ha firmado un acuerdo de usuario de algún tipo. Si ha acordado usar los datos que se le proporcionaron de cierta manera, especialmente cuando los datos son de propiedad exclusiva y los pagó con un contrato exclusivo, entonces será enormemente responsable del uso indebido de esos datos. Además, el riesgo legal (es decir, la consecuencia remunerativa / punitiva) aumenta dramáticamente si está tratando de obtener datos que tengan valor monetario para los propietarios.

Tenga en cuenta la advertencia y el descargo de responsabilidad en la parte inferior.

Déjame darte algunos ejemplos:

Usuario no exclusivo, sin acuerdo

Usted es un visitante que visitó un sitio web público y nunca tuvo que firmar un acuerdo de usuario que establezca el uso adecuado de los datos que desea raspar. En este caso, siempre que no haga nada para translacionar las leyes de derechos de autor que se aplican a ciertos tipos de análisis, debe tener la libertad de eliminarlas.

Usuario de firma de acuerdo no exclusivo

Usted es un visitante que visitó un sitio web público, sin embargo, para acceder a estos datos se le pidió que firmara un acuerdo de usuario. Incluso si los propietarios no parecen discriminar entre los usuarios a los que proporcionan acceso a los datos, si el acuerdo del usuario establece explícitamente que los datos no se pueden raspar o reproducir, entonces corre el riesgo de enfrentar acciones legales. Si no se está causando ningún daño monetario a los propietarios de los que extrajo los datos, es posible que solo se arriesgue a ser expulsado del sitio sin motivos reales para otras acciones legales, pero los ingresos no realizados también son una cosa y podrían interpretarse libremente en un sala de justicia.

Usuario exclusivo, de firma de acuerdos y de pago

Este es un territorio peligroso. Los datos que está raspando son claramente valiosos como un dispositivo propietario y los propietarios seguramente lo notarán si el uso compromete su modelo de negocio.

La legalidad del raspado web se aborda mucho más a fondo aquí. Te animo a que sigas leyendo si estás haciendo algún webcraping serio.

Ética

Ahora que hemos hablado sobre el riesgo legal, considere la ética. Si promete utilizar los datos de cierta manera, no es ético hacer lo contrario. Si está socavando el valor de la propiedad de otros injustamente, esto también es un comportamiento poco ético. Sorpresa, sorpresa. Resulta que muchas de las leyes en esta área coinciden con consideraciones éticas comunes.

Lo anterior es relevante solo para los datos de precios y transacciones. Otra información raspada puede estar sujeta a muchas otras cosas como la ley de derechos de autor / patentes, la ley de difamación / calumnia, etc.

No tengo licencia para dar asesoramiento legal. ¡Debe consultar a un abogado si siente curiosidad por los mecanismos que están en juego aquí!

Trabajo en PromptCloud y estamos principalmente en negocios de rastreo y extracción a gran escala. Algunas comprobaciones de viabilidad específicas del sitio que se realizarán antes de rastrearlo:

  1. robots.txt: este es un archivo estándar que la mayoría de los sitios web definen para informar a los agentes de rastreo (incluido el robot de Google) si pueden rastrearlo o no. Hay páginas específicas que no se pueden rastrear, mientras que el resto se puede rastrear. Tan solo busque los patrones de URL donde reside su información de interés y las reglas correspondientes según el archivo robots.txt del sitio. Si no está permitido, solo debes levantar las manos para no gatear. (PD: en la mayoría de los casos, si no se permiten los bots, es posible que ni siquiera puedas obtener ninguna información de las páginas con tus agentes).
  2. Términos de uso: algunos sitios, aunque permiten bots, sus términos de uso desalientan golpear sus servidores a través de bots. Entonces, si ToU le pide que deje de molestarlos, sígalo.
  3. Políticas de cortesía: la mayoría de las veces, dentro del archivo robots.txt, hay un retraso de rastreo especificado. Lo que significa que se supone que no debes acceder a sus servidores a través de bots con más frecuencia de la que han solicitado. Intente cumplir con esas políticas y debería estar bien rastreando. De lo contrario, intente no sobrecargar los servidores con múltiples solicitudes cada segundo. Si realiza 1 millón de solicitudes por día a sus servidores, los está volviendo locos y su IP terminará siendo bloqueada.
  4. Agregadores de contenido: en nuestra experiencia, la mayoría de los agregadores de contenido bloquean el rastreo. Por lo tanto, incluso si se hubieran perdido la definición de su archivo robots.txt, ciertamente no les gustaría que otros robots los rastrearan porque estás robando su ventaja.
  5. Datos basados ​​en API: algunos sitios que no permiten el rastreo proporcionan una API desde la que puede recopilar los feeds y extraer datos relevantes.
  6. Lista blanca: aparte de estos, hay algunos sitios en los que necesita obtener su lista blanca de bot.

No soy abogado, así que seguramente no sabría los detalles. Pero siempre que se haya ocupado de lo anterior y rastree solo los datos públicos (al igual que visitaría manualmente su sitio y lo verificaría), está listo para comenzar. Además, si solo está mostrando los datos TAL CUAL (mismas imágenes, diseño, descripciones, etc.) O si no está procesando más, puede tener problemas.

Estuve involucrado en una startup por un corto tiempo cuyo modelo de negocios dependía en gran medida del rastreo y la visualización de precios para grandes minoristas de Internet.

Todo se reduce al hecho de que muchos sitios tienden a desalentar el raspado en sus Términos de uso. Eso puede abrirlo para una demanda.

En general, el mejor método es convertirse en socios afiliados con diferentes sitios que le gustaría mostrar. Muchas asociaciones de afiliados hacen innecesario el scraping porque permiten acceder a los datos directamente.

El artículo de Wikipedia sobre el tema ilumina la complejidad legal de lo que está preguntando: http://en.wikipedia.org/wiki/Web

Además, esta respuesta de Stack Overflow tiene algunas perspectivas interesantes sobre el tema: http://stackoverflow.com/questio

Los analizadores generalmente no son equivalentes a los motores de búsqueda porque muchos sitios grandes permiten explícitamente los robots de Google, pero intentarán detectar y bloquear otros rastreadores.

La respuesta corta es que es muy complicado. Lo más probable es que no sea un problema. Sin embargo, si a los sitios que está raspando no le gusta lo que está haciendo, existe una precedencia legal de que pueden demandarlo.

Es un poco dependiente.
Al crear un enlace a los elementos que está comparando, con toda probabilidad pasará bien. Algunos sitios no permiten enlaces activos, por lo que pueden verse frustrados por el propio sitio.
Copiar una imagen con toda probabilidad violará los derechos de autor. La mejor manera de obtener una imagen es ir al sitio de diseñadores de moda y usar su imagen. Serían los menos propensos a quejarse, pero sigue siendo una buena idea pedir permiso.

La información sobre precios no está sujeta a derechos de autor. Pero deberá demostrar que tiene el precio correcto. No es un problema de derechos de autor.

He escrito una publicación de blog sobre esto:
http://blog.scraperwiki.com/2012

Y hay más detalles en las preguntas frecuentes de ScraperWiki:
https://scraperwiki.com/docs/pyt

Muchos sitios hacen esto, incluido Google.

http://www.google.com/shopping

Esencialmente, simplemente está construyendo un motor de búsqueda.

More Interesting

Estoy buscando el tema de comercio electrónico de WordPress para desarrollar un sitio web similar a https://www.camomile.london/. Por favor, avíseme si alguien lo sabe.

Tengo problemas para hacer CSS. ¿Debo abandonar el sueño de ser un desarrollador front-end o hay alguna forma de diseñar páginas web?

Si mi encabezado tiene un logotipo grande que lleva al usuario a la página de inicio, ¿todavía no se recomienda eliminar el enlace de Inicio?

Estoy desarrollando un sitio web para Mac vs PC. ¿Cuáles son las diferencias tecnológicas entre los sistemas? ¿Debo tener en cuenta las diferencias tecnológicas?

Quiero crear un nuevo sitio web. ¿Cómo agrego un nuevo artículo a mi sitio web? ¿Debo editar mi archivo cargado nuevamente?

¿Hay alguna forma de asegurarme de que mis diseños PSD y HTML estén perfectamente alineados?

No tengo conocimiento de HTML, pero me gustaría crear un sitio web utilizando una plataforma de editor web de texto enriquecido simple y una plantilla en blanco (en lugar de plantillas predefinidas como en WordPress o Weebly). ¿Cómo puedo hacer esto?

Quiero hacer un curso de diseño web. ¿Qué instituto sería mejor en Bangalore?

Si aprendo desarrollo web, ¿cómo puedo crear mi sitio web y venderlo?

Tengo 20 años y dirijo una empresa de desarrollo web bastante rentable y me expandiré. Nunca fui a la universidad. ¿Vale la pena volver y obtener un BS en CS?

Si tuviera que construir un sitio web como Quora, dado que no sé cómo usar ningún marco de front-end, ¿qué marcos debería usar?

Quiero crear un sitio web como LinkedIn para una comunidad pequeña (~ 100 personas). No tengo ninguna habilidad de lenguaje de programación. Quiero crearlo solo aprendiendo. ¿Donde debería empezar?

Voy a aprender sass. ¿Debo aprender Sass o SCSS?

Tengo robots.txt en mi sitio web, ¿debería eliminarlo?

Quiero hacer una propuesta de proyecto sobre el uso de 'técnicas de realidad virtual en la simulación de experimentos de química'. ¿Cómo puedo hacerlo en términos de aplicación web?