Esta pregunta es realmente más complicada de lo que parece inicialmente. A primera vista, podría usar la mayoría de los lenguajes de programación para realizar la solicitud HTTP y analizar la respuesta HTML textual. Esto se debe a que, en la actualidad, todos los lenguajes de programación tienen acceso a bibliotecas / marcos / API para realizar HTTP / HTTPS.
Donde se vuelve complicado es que muchos sitios web modernos se implementan como SPA, y gran parte de su contenido se genera del lado del cliente. Esto significa que para analizar adecuadamente dichos sitios web, deberá ejecutar su código de la misma manera que un navegador. De hecho, esto es lo que hace ahora el rastreador de búsqueda de Google.
Hacer esto requiere que automatices un navegador (como Headless Chrome) o implementes una aplicación que pueda simular el comportamiento del navegador ejecutando JavaScript y proporcionando una API similar a DOM. Esto hace que el esfuerzo sea mucho más desafiante, y ciertamente algunos entornos, como Node.js, son más apropiados que otros.
- ¿Puede una persona meterse en problemas por crear un sitio web polémico?
- ¿Cuáles son las mejores herramientas para una startup?
- Cómo crear un formulario de registro de estudiante usando PHP y MYSQL
- ¿Qué es Node.js? Quiero una comprensión clara al respecto.
- ¿Existe un tema de sitio web de WordPress que tenga una configuración incorporada para garantizar una carga rápida, y también un complemento de carrito de compras rápido que pueda usar con él?