¿Cuánto tiempo tarda un rastreador web en explorar Internet?

En términos simples para responder a esta pregunta, tenemos que dar un paso atrás y ver cómo se estructuran los datos en Internet.

Si Internet se mirara como un gráfico dirigido:

Entonces los nodos pueden considerarse como sus páginas.

Para rastrear todo esto, necesitamos tener un punto de partida para evitar largas distancias y atravesar nodos duplicados.

Una vez que el proceso de pasar por los nodos se ha tomado bajo control, el almacenamiento y la velocidad de los flujos de datos para guardar las páginas / información cambiarán drásticamente el tiempo del proceso.

Aquí hay un Whitepaper sobre un proyecto de Texas A&M:

Proyecto: IRLbot en Texas A&M

IRLbot es un proyecto de investigación de Texas A&M que investiga algoritmos para mapear la topología de Internet y descubrir las diversas partes de la web. El rastreador descarga páginas web aleatorias (solo texto) y sigue ciertos enlaces para encontrar otros sitios web.

RLbot: Escalado a 6 mil millones de páginas y más

Cada vez que visita un sitio, puede tomar hasta 30 segundos procesar la información y enviarla de vuelta a su base de datos. A ese ritmo, puede hacer alrededor de 100 enlaces por hora. Multiplique eso por un millón de enlaces y podrá ver por qué necesita muchas computadoras para obtener información bastante actual de sus búsquedas. Mi cálculo del reverso es que tomaría al menos 8,000 horas o aproximadamente 347 días. Procesar 100 millones de enlaces (todavía no todo Internet) llevaría 100 años.

La forma en que lo hacen los motores de búsqueda es que envían decenas de miles de rastreadores web a la vez. De esa manera pueden procesar los sitios más rápido y obtener una vista más fresca de cada sitio.