¿Cuánto tiempo tarda un rastreador web en explorar Internet?

En términos simples para responder a esta pregunta, tenemos que dar un paso atrás y ver cómo se estructuran los datos en Internet.

Si Internet se mirara como un gráfico dirigido:

Entonces los nodos pueden considerarse como sus páginas.

Para rastrear todo esto, necesitamos tener un punto de partida para evitar largas distancias y atravesar nodos duplicados.

Una vez que el proceso de pasar por los nodos se ha tomado bajo control, el almacenamiento y la velocidad de los flujos de datos para guardar las páginas / información cambiarán drásticamente el tiempo del proceso.

Aquí hay un Whitepaper sobre un proyecto de Texas A&M:

Proyecto: IRLbot en Texas A&M

IRLbot es un proyecto de investigación de Texas A&M que investiga algoritmos para mapear la topología de Internet y descubrir las diversas partes de la web. El rastreador descarga páginas web aleatorias (solo texto) y sigue ciertos enlaces para encontrar otros sitios web.

RLbot: Escalado a 6 mil millones de páginas y más

Desarrollo webProgramación informáticaweb

¿Cómo se construye un servicio como Chatroulette?

¿Cuál es un buen método para comprender rápidamente un marco (web) dado?

¿Cómo es compatible un navegador web con la empresa que lo creó?

¿Para qué sirven los parámetros 'nombre' y 'valor' en la etiqueta ' en HTML?'

¿Qué tan importante sería en el futuro para un no programador saber y poder programar?

¿Cuáles son tus mayores desafíos con CSS?

Cada vez que visita un sitio, puede tomar hasta 30 segundos procesar la información y enviarla de vuelta a su base de datos. A ese ritmo, puede hacer alrededor de 100 enlaces por hora. Multiplique eso por un millón de enlaces y podrá ver por qué necesita muchas computadoras para obtener información bastante actual de sus búsquedas. Mi cálculo del reverso es que tomaría al menos 8,000 horas o aproximadamente 347 días. Procesar 100 millones de enlaces (todavía no todo Internet) llevaría 100 años.

La forma en que lo hacen los motores de búsqueda es que envían decenas de miles de rastreadores web a la vez. De esa manera pueden procesar los sitios más rápido y obtener una vista más fresca de cada sitio.

Yad Konrad

More Interesting

Cómo hacer un buen video para mi sitio web

Cómo vincular mi Ecwid a mi sitio web Weebly

¿Cómo debo crear un documento / hoja para el requisito de contenido para el sitio web interno de nuestra empresa?

¿Cómo es ser un desarrollador front-end para un sistema operativo que no es Unix como Windows?

¿Por qué no se recomienda CodeIgniter?

¿Qué es WebSocket en Java? ¿Como lo usas?

¿Por qué costó tanto construir el sitio web healthcare.gov?

¿Qué es MVC en JSP?

WHMCS en subdominio o subcarpeta?

¿Qué software de automóvil tiene una API?