De hecho, es complicado, no se duplica fácilmente a esa escala. Obtendrá una buena idea de la complejidad al mirar Travelfusion. Publican su lista de proveedores de datos y el método de adquisición (api vs. raspado de pantalla):
http://www.travelfusion.com/supp…
Basado en la divulgación pública (presentaciones de Kayak S-1 ante la SEC), Kayak usa tecnología de ITA (actualmente propiedad de Google) para responder una cantidad significativa de consultas, especialmente para el aire doméstico de los EE. UU. Ver por ejemplo,
- ¿Cuál es la diferencia entre una etiqueta y una etiqueta ?
- ¿Cuál es la forma más correcta de validar una dirección de correo electrónico?
- Cómo crear un control deslizante de imagen usando HTML y CSS
- ¿Podemos usar Cordova con PHP y MySQL?
- ¿Cómo es ser desarrollador?
http://www.tnooz.com/2010/11/17/…
También en las presentaciones S-1 están los acuerdos redactados con Orbitz. En esos acuerdos se menciona que Kayak construye el contenido de Orbitz mediante el raspado de pantalla o por otros medios (por ejemplo, podría ser una fuente XML de Orbitz a Kayak).
Para el contenido del hotel, este artículo ofrece una imagen parcial:
http://www.tnooz.com/2011/11/07/…
Mucho trabajo duro (tanto técnico como comercial) involucrado en la construcción de un gran metabuscador como Kayak.