¿Cómo funciona el raspado web?

El raspado web es el proceso de extraer elementos de la (s) página (s) web y guardar los elementos en una estructura. Por ejemplo, su búsqueda de ‘pizza’ en el código postal ‘32456’ en yelp dará como resultado muchos puntos de venta de pizza con la información necesaria y desea almacenar información de todos estos puntos de venta en la hoja de Excel.

Cuando se usa un programa para web scraping, envía una solicitud GET usando el protocolo HTTP a la URL de destino que usted menciona. El servidor web si considera que la solicitud es legítima, le permite leer html de la página web y la almacena en el entorno de su programa.

El siguiente paso es localizar los elementos de destino y guardarlos en diferentes variables. Hace años, las páginas html se leían como documentos de texto y para localizar y guardar elementos, se usaban expresiones regulares. Pero gracias a XML y a los desarrolladores por proporcionarnos bibliotecas de alto nivel que localizan estos elementos de manera sofisticada.

Muchos sitios web detectan sus programas como bot o bloquean demasiadas solicitudes de la misma ip. Los Web Scrapers luego usan emuladores de navegador y rotan sus ips usando servidores proxy que ciertamente los ayuda, pero esto en realidad es una violación de los términos.

El raspado web es cuando un programa procesa un recurso web (como una página web) y luego lo interpreta con algún propósito analítico.

Existen numerosas aplicaciones, pero para darle un ejemplo simple, una empresa podría eliminar foros relacionados con su industria y luego realizar un análisis de los datos para determinar qué características serían las más preferidas por su público objetivo.

El lado analítico de este proceso se llama por varios nombres, pero a menudo se usa “minería de datos” como un término general.

De una respuesta anterior:

La respuesta de Nilanjan Bhattacharya a ¿Qué es “raspar” y por qué no está permitido en Quora?