¿Cómo funciona el raspado web?

El raspado web es el proceso de extraer elementos de la (s) página (s) web y guardar los elementos en una estructura. Por ejemplo, su búsqueda de ‘pizza’ en el código postal ‘32456’ en yelp dará como resultado muchos puntos de venta de pizza con la información necesaria y desea almacenar información de todos estos puntos de venta en la hoja de Excel.

Cuando se usa un programa para web scraping, envía una solicitud GET usando el protocolo HTTP a la URL de destino que usted menciona. El servidor web si considera que la solicitud es legítima, le permite leer html de la página web y la almacena en el entorno de su programa.

El siguiente paso es localizar los elementos de destino y guardarlos en diferentes variables. Hace años, las páginas html se leían como documentos de texto y para localizar y guardar elementos, se usaban expresiones regulares. Pero gracias a XML y a los desarrolladores por proporcionarnos bibliotecas de alto nivel que localizan estos elementos de manera sofisticada.

Muchos sitios web detectan sus programas como bot o bloquean demasiadas solicitudes de la misma ip. Los Web Scrapers luego usan emuladores de navegador y rotan sus ips usando servidores proxy que ciertamente los ayuda, pero esto en realidad es una violación de los términos.

Related Content

¿Qué marcos de terceros son los principales impulsores (y sus razones) para el dominio y el éxito de la Plataforma Java?

¿Por qué los desarrolladores usan tanto Python?

¿Cuáles son las tecnologías que un desarrollador de PHP debe conocer?

Cómo realizar la validación de un correo electrónico ingresado en un formulario usando PHP

¿Es Node.js mejor que JavaEE como plataforma de desarrollo web?

Cómo hacer un sitio web a través de github

¿Cuáles son las etiquetas HTML importantes que necesito saber para convertirme en desarrollador?

El raspado web es cuando un programa procesa un recurso web (como una página web) y luego lo interpreta con algún propósito analítico.

Existen numerosas aplicaciones, pero para darle un ejemplo simple, una empresa podría eliminar foros relacionados con su industria y luego realizar un análisis de los datos para determinar qué características serían las más preferidas por su público objetivo.

El lado analítico de este proceso se llama por varios nombres, pero a menudo se usa “minería de datos” como un término general.

Nouman Riaz Khan

De una respuesta anterior:

La respuesta de Nilanjan Bhattacharya a ¿Qué es “raspar” y por qué no está permitido en Quora?

Martin La Belle

More Interesting

¿Surface Pro 4 es bueno para fines de programación y diseño web (principalmente programación y diseño web y desarrollo de Android)?

¿Qué tipo de sitios web debe hacer un principiante para practicar su HTML y CSS?

¿Cuál es la diferencia entre alojamiento web y secuencias de comandos web?

Cómo saber cuántas veces se ha visitado una página web específica (no un sitio web) de cualquier sitio web en la web

¿Cuáles son los diferentes marcos JS (JavaScript) disponibles y dónde se puede usar?

¿Cuáles serían las ventajas de usar Node.js en lugar de Ruby on Rails?

¿Cuándo debo usar API?

¿Qué servidores son los mejores para implementar aplicaciones Node.js?

Cómo hacer que las personas creen una cuenta en mi sitio web

¿Cómo podría Node.js integrarse con la sintaxis en un sitio web de la misma manera que PHP?

Cómo poner en línea un sitio web alojado localmente

¿Cuáles son tus mayores desafíos con CSS?

Cómo usar un servicio web de descanso para agregar un artículo a un carrito

Cómo usar mail () en php usando el servidor localhost en windows

¿Crees que Google's Go será el futuro de la programación?

Web Analytics