Hadoop es un sistema de procesamiento por lotes que puede procesar grandes cantidades de datos en un entorno de clúster. Eso significa que los datos se pueden procesar rápidamente y la información procesada está disponible en el tiempo requerido. Hadoop nunca se puede usar directamente con una aplicación web. Todo el propósito es completamente diferente. Piense en viajar grandes distancias, necesita una aerolínea a reacción para ir de un lugar a otro, pero los aviones nunca se pueden usar para ir a la oficina en la ciudad donde vive. Del mismo modo, Hadoop puede procesar grandes cantidades de datos y extraer información que la aplicación web no puede utilizar directamente. Piense en las aplicaciones de inteligencia empresarial donde los datos se acumulan y procesan en lotes.
Spark es una historia diferente. El propósito es el mismo que Hadoop, que es procesar grandes datos en un entorno de clúster, pero como spark usa memoria, el procesamiento es de 10 a 100 veces más rápido que Hadoop. Hadoop siempre usa el disco para almacenar resultados intermedios y generalmente un trabajo consiste en múltiples etapas con múltiples resultados intermedios, ralentiza el trabajo de hadoop en comparación con Spark. Spark se puede usar con la aplicación web usando un servidor de trabajo (Livy, un servicio REST de código abierto para Apache Spark) pero supongo que dicho sistema será costoso
Software de gestión de casos legales
- ¿Qué aplicación me recomiendan para una investigación en línea?
- ¿Por qué alguien elegiría Python sobre Ruby, y viceversa?
- Quiero construir una aplicación web. ¿Es mejor aprender primero sobre las tecnologías de back-end o front-end?
- ¿Qué tan bueno es python oscar framework para sitios de comercio electrónico en comparación con magento?
- ¿Qué es la seguridad de la aplicación web?