¿Puedes detectar si alguien está raspando tu sitio web usando R o Python?

De forma predeterminada, python puede mostrar el Agente de usuario como “Python-urllib / 2.1″. Sin embargo, esto podría sobrescribirse fácilmente [1]. Algunos hackers simplemente ponen una cadena en blanco como Agente de usuario, lo que suena tonto.

Muap8 todavía es un bebé y, sin embargo, ha sido eliminado por los navegadores con los siguientes agentes de usuario:

  • masscan / 1.0
  • Wget (Linux)
  • Scanbot
  • Python-request / 2.14.2
  • 1tx71 – (http://ltx71.com/)
  • Mozilla / 5.0 Jorgee
  • Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html)
  • Mozilla / 5.0 (compatible; bingbot / 2.0; + http: //www.bing.com/bingbot.htm)
  • Mozilla / 5.0 (Macintosh; Intel Mac OS X 10.11; rv: 47.0) Gecko / 20100101 Firefox / 47.0
  • Mozilla / 5.0 (Windows NT 10.0; Win64; x64; rv: 55.0) Gecko / 20100101 Firefox / 55.0
  • Dalvik / 2.1.0 (Linux; U; Android 6.0.1; SM-G610F Build / MMB29K)

En resumen, el Agente de usuario podría ser fácilmente falsificado. La piratería es la raza del gato y el ratón.

[1] ¿Cómo usar las solicitudes de Python para falsificar una visita al navegador?

No se puede decir el idioma obviamente …

Puede ver una dirección IP coherente en los registros y bloquearla. Se pueden mover y comienzas a usar un ratón.

Puede rastrear la actividad sin consultar la URL. Quizás imágenes no cargadas desde una página. Puedes intercambiar imágenes con algunos trucos ingeniosos.

para sistemas simples solo mire los registros.

No parece posible El desguace implica una solicitud http cuya respuesta es analizada por un script. Para el servidor, la solicitud probablemente parece una solicitud de usuario normal.