¿Por qué los desarrolladores web evitan el raspado web?

Hay un gran tabú en torno a que la palabra raspar tiene una connotación negativa, por lo que las personas intentan evitar usarla si quieren presentarse bien. Pero recordemos algunas cosas aquí. Google (y todos los demás motores de búsqueda) son los mayores raspadores de todos. sin mencionar Yelp, innumerables sitios de viajes, sitios de comercio de divisas, innumerables innovaciones en publicidad y miles, si no decenas de miles de industrias cada año, están utilizando datos rastreados para crear productos valiosos útiles. La ley establece que no puede simplemente raspar los datos de alguien y establecer un negocio en competencia, que es abiertamente ilegal, establecido por la jurisprudencia. Pero si está utilizando los datos para un propósito diferente (es decir, en formato digital en lugar de físico con el caso mencionado anteriormente), la ley dice que está bien, y además si está mejorando los datos y ha invertido el tiempo y el dinero en creando un producto superior y diferente que por sí solo está proporcionando un mayor valor para el mundo, el mercado y luego no. Cualquiera de estos es suficiente por sí mismos, pero teniendo ambas defensas (aunque hay más), mis abogados me han asegurado que no tengo nada de qué preocuparme. El hecho es que las únicas personas a quienes puedo perjudicar son aquellos que hacen lo mismo, pero no tan bien.

Comente con sus pensamientos sobre esto, ¿cree que este precedente legal es justo?

No estoy seguro de lo que está preguntando, considerando que concluye en la descripción que uno debería usar una API pública, si hay alguna, por supuesto. ¿Y por qué mencionaste específicamente Python?

Pero no todos los sitios tienen API públicas, por lo que hay casos en los que el raspado es la única opción. Tuve que hacerlo una vez en un proyecto comercial, porque el cliente quería que extrajera un directorio de la empresa para acceder a él a través de teléfonos móviles, mientras que su sitio original no estaba adaptado para dispositivos móviles, y no me permitieron hacer cambios allí, ni acceder a su base de datos directamente.

Pero el raspado puede romperse en cualquier momento, cuando los sitios cambian lo que se genera HTML, por lo que el mantenimiento es problemático.

También en cuanto a los derechos es discutible a menos que se haga de acuerdo con el autor.

El raspado web tiene desventajas:

  • No se garantiza que obtenga todos los datos que necesita, si algunos de ellos requieren acceso autenticado.
  • La salida HTML incluye una gran cantidad de contenido que no necesita, que rodea los datos que necesita. Hay gastos generales para descargar todo ese contenido innecesario. Se necesita mucho código para filtrar todo el contenido que no necesita.
  • La salida HTML puede cambiar la presentación del contenido y los cambios pueden romper su estrategia de raspado web. Una API adecuada es un contrato, por lo que debería poder depender del formato de manera más confiable.
  • El raspado web puede violar los términos de servicio de un sitio web. El contenido de un sitio web les pertenece. Eliminarlo viola los derechos de autor si reúne los datos sin permiso o sin usar la API que proporciona el sitio.