En términos simples para responder a esta pregunta, tenemos que dar un paso atrás y ver cómo se estructuran los datos en Internet.
Si Internet se mirara como un gráfico dirigido:
Entonces los nodos pueden considerarse como sus páginas.
Para rastrear todo esto, necesitamos tener un punto de partida para evitar largas distancias y atravesar nodos duplicados.
- PHP con OOP, siempre siento que debería usar OOP, pero no quiero ...
- ¿Cómo se puede construir una interfaz de usuario web como Spotify?
- Cómo usar mis habilidades de desarrollo web y Java
- Cómo configurar un sitio web que pueda competir contra Quora
- ¿Cómo se hacen los sitios web como Google+ y Facebook?
Una vez que el proceso de pasar por los nodos se ha tomado bajo control, el almacenamiento y la velocidad de los flujos de datos para guardar las páginas / información cambiarán drásticamente el tiempo del proceso.
Aquí hay un Whitepaper sobre un proyecto de Texas A&M:
Proyecto: IRLbot en Texas A&M
IRLbot es un proyecto de investigación de Texas A&M que investiga algoritmos para mapear la topología de Internet y descubrir las diversas partes de la web. El rastreador descarga páginas web aleatorias (solo texto) y sigue ciertos enlaces para encontrar otros sitios web.
RLbot: Escalado a 6 mil millones de páginas y más