¿Es posible construir un motor de búsqueda sigiloso (rastreo web no raspado web) para apuntar a un solo sitio web en línea, sin que ellos lo sepan, y qué habilidades de codificación o anonimato serían necesarias?

En primer lugar, sí, es posible lograr lo que buscas con bastante facilidad.

Anonimato: un sitio web lo identifica con múltiples parámetros:

  • Encabezados de solicitud HTTP Cookies y otros marcadores de identidad
  • Dirección IP de su solicitud
  • Patrón de actividad

Cada solicitud HTTP lleva consigo una carga útil de encabezados. Sin embargo, estos encabezados están completamente abiertos para la manipulación. Entonces esta no es su mayor preocupación. Como se sugirió, querrá falsificar la cadena de agente de usuario para que parezca normal y altere cualquier otro dato identificable.

La dirección IP es un poco más complicada. La forma en que funciona la web, tendrá que trabajar duro para suplantar esto. Para su escenario, la suplantación básica lo llevará lejos. Proxies, VPN y otras tecnologías similares son lo que desea investigar. Sin embargo, tenga en cuenta que, dependiendo del servicio que use, podría terminar obteniendo la misma IP o una similar cada vez que la use, creando así patrones.

Los patrones de actividad son una técnica interesante pero poco confiable para identificar a un usuario. Entonces, por ejemplo, si usó un programador para ejecutar su rastreador cada 3 minutos usando un Agente de usuario IE10, enrutando su solicitud a través de un servicio VPN disponible públicamente que solo tiene un grupo limitado de direcciones IP ampliamente conocidas, ¿qué tan difícil cree que es? vas a hacer un seguimiento de tu actividad después de decir unas 100 conexiones? Con bastante precisión! Agregue a eso su patrón de solo rastrear ciertas palabras clave y allí, estará desnudo frente a un webmaster inteligente.

Hay demasiados scripts de rastreo web disponibles en el dominio público que no justifica mencionar solo algunos aquí. Decida el idioma que va a utilizar, sus habilidades de codificación y elija un guión en consecuencia.

Diviértete 🙂

Lo que preguntas se llama web scraping. Usaría algún tipo de script programado para visitar el sitio y recolectar la información cada x cantidad de veces por x.

El lenguaje no importa realmente, pero Python tiene algunas bibliotecas excelentes para realizar tareas como esta. Rasparía y almacenaría en algún tipo de base de datos, probablemente una base de datos MySQL.

Soluciones precodificadas como si solicita asistencia mediante el uso de servidores proxy, camionetas y falsificación del agente de usuario para que también permanezca en el anonimato.

Use un rastreador y un nombre de agente de usuario similar al navegador y configure una actualización periódica en las páginas que está indexando. Puede configurar una colección http en SearchBlox y hacerlo de forma gratuita.

¿No podrías simplemente meterlo en Google?

Me gusta, sitio (palabra clave): (su sitio).

Debería abrir los enlaces en el dominio con la palabra clave de la que estaba hablando.

More Interesting

¿Puedo obtener mi primer trabajo de desarrollador web front-end aprendiendo HTML, CSS, Bootstrap, Javascript, Jquery y React? En caso afirmativo, ¿cuánto tiempo llevará?

¿Hay algún impacto en el rendimiento del uso de diferentes motores para tablas en una sola base de datos en MYSQL?

¿Qué características de Facebook son las más complejas desde una perspectiva tecnológica?

¿De qué maneras puedo mejorar este sitio? Los mejores sitios web para | BW4

¿Qué es un buen editor de JavaScript para Windows?

En Django, ¿cómo puedo acceder a la base de datos de una aplicación en un archivo Python diferente para fines de cálculo?

Tengo la aplicación React que procesa todo en el lado del cliente. ¿Está bien esperar a que se genere una cookie antes de representar los componentes de la página?

¿Podemos volver a declarar un declarado en el mismo ámbito en modo estricto y no en modo estricto en JavaScript?

Cómo hacer que Javascript sepa que se seleccionó un elemento desplegable

¿Qué tan bien funciona Yii para aplicaciones web en tiempo real?

¿Debo continuar con CSS o volver primero para fortalecer mi conocimiento de HTML?

¿Qué son los ayudantes en Ember.js?

¿Cómo debería un desarrollador del lado del servidor comenzar a actualizar sus habilidades de IU web?

Cómo elegir los mejores desarrolladores de Laravel

Una vez autenticado, ¿cómo recuerda un servidor web al host que inició sesión para que no tenga que volver a ingresar las credenciales?