¿Cuál es el futuro de Apache Spark?

Apache Spark tiene un futuro brillante.

Muchas compañías han reconocido el poder de Spark y rápidamente comenzaron a trabajar en él. Cada vez más empresas comienzan a usar Spark. En los próximos días, Spark será la tecnología más moderna y habrá un gran alcance para Spark.

Apache Spark es el producto más avanzado y popular de Apache Community que proporciona la provisión para trabajar con la transmisión de datos, tiene varias bibliotecas de aprendizaje automático, puede trabajar con datos estructurados y no estructurados, lidiar con gráficos, etc.

Apache Spark es uno de los proyectos más activos de Apache y su alcance futuro será duradero.

Los usuarios de Spark han aumentado exponencialmente y se han considerado progresivamente como el futuro de Big Data Platform porque Spark es:

a. Procesamiento rápido

Con Apache Spark, logramos una alta velocidad de procesamiento de datos de aproximadamente 100 veces más rápido en memoria y 10 veces más rápido en el disco. Esto es posible al reducir la cantidad de lectura-escritura en el disco.

si. Dinámica en la naturaleza

Podemos desarrollar fácilmente una aplicación paralela, ya que Spark proporciona 80 operadores de alto nivel.

do. Computación en memoria en Spark

Con el procesamiento en memoria , podemos aumentar la velocidad de procesamiento. Aquí los datos se almacenan en caché, por lo que no necesitamos recuperar datos del disco cada vez, por lo que se ahorra el tiempo. Chispa tiene TROZO DE CUERO motor de ejecución que facilita el cálculo en memoria y el flujo de datos acíclico que resulta en alta velocidad.

re. Reusabilidad

El código Spark se puede reutilizar para el procesamiento por lotes, unir flujo contra datos históricos o ejecutar consultas ad-hoc en estado de flujo.

mi. Tolerancia a fallas en chispa

Apache Spark proporciona tolerancia a fallas a través de Spark abstraction-RDD. Spark RDDs están diseñados para manejar la falla de cualquier nodo de trabajo en el clúster. Por lo tanto, asegura que la pérdida de datos se reduzca a cero. Aprenda diferentes formas de crear RDD en Apache Spark.

F. Procesamiento de flujo en tiempo real

Spark tiene una provisión para el procesamiento de flujo en tiempo real. Anteriormente el problema con Hadoop MapReduce fue que puede manejar y procesar datos que ya están presentes, pero no los datos en tiempo real. pero con Spark Streaming Podemos resolver este problema.

sol. Evaluación perezosa en Apache Spark

Todas las transformaciones que hacemos en Spark RDD son de naturaleza perezosa, es decir, no dan el resultado de inmediato, sino que se forma un nuevo RDD a partir del existente. Por lo tanto, esto aumenta la eficiencia del sistema. Siga esta guía para obtener más información sobre Spark Lazy Evaluation en gran detalle.

h. Soporta múltiples idiomas

En Spark, hay soporte para múltiples idiomas como Java, R, Scala, Python . Por lo tanto, proporciona dinámica y supera la limitación de Hadoop que solo puede crear aplicaciones en Java.

Para saber más: Apache Spark Future

Echemos un vistazo a por qué deberíamos aprender Apache Spark

Con el aumento del tamaño de los datos que se generan cada segundo, se ha vuelto importante analizar estos datos para obtener información comercial importante en menos tiempo. Varios Grandes opciones de datos como Hadoop , Storm , Spark , Flink, etc., han hecho esto posible. Pero de las cientos de opciones disponibles, ¿por qué debería aprender Apache Spark, cómo Apache Spark ha reemplazado a Hadoop y se ha convertido en el motor de Big Data más popular y por qué la industria detrás de Spark es una preocupación importante? Así que veamos las razones para aprender Apache Spark.

1. Alta compatibilidad con Hadoop

Cuando Hadoop entró en escena, las compañías comenzaron a invertir en esta tecnología. Incluso los profesionales de diversos dominios comenzaron a aprenderlo rápidamente. Cuando se lanzó Apache Spark, las empresas ya han invertido mucho en Hadoop (especialmente hardware y recursos), no es posible invertir nuevamente para Spark.

Por lo tanto, Spark ha presentado compatibilidad con Hadoop: Spark se puede implementar en el mismo hardware de Hadoop y puede usar su capa de administración de recursos: además de este Spark, Spark puede procesar los datos almacenados en HDFS (Sistema de archivos distribuidos de Hadoop) . Si usted es un profesional con conocimiento de Hadoop, aprender Spark sería ventajoso ya que las empresas ahora buscan expertos en Spark en lugar de Hadoop solo.

.2. Hadoop está disminuyendo mientras Spark está provocando

3. Mayor acceso a Big Data

4. Alta demanda de profesionales de Spark

Para conocer los detalles completos, consulte el siguiente enlace:

6 razones importantes para aprender Spark

Apache Spark definitivamente se ve como un líder de paquete en Data Science, especialmente para Big Data y análisis de datos en tiempo real. Con bibliotecas como SparkSQL, SparkML, GraphX, realmente se está convirtiendo en un sistema de elección.

Solo mire los casos de uso cubiertos por diferentes empresas en Spark Summit 2017 y podrá comprender las aplicaciones y por qué y cómo están reemplazando los sistemas más antiguos y qué problemas están abordando.

Estoy dando aquí un resumen breve y dulce de cuatro industrias: hotelería, alimentación, transmisión de video y fabricación de automóviles. Hay muchos más ejemplos allí.

Nota: Todas las sesiones de Spark Summit están disponibles para el consumo de cualquier persona interesada.

1 – Hoteles.com

Se movió para usar Spark para una carga de trabajo del 100%.

Facilidad de implementación:

– Ser rápido es absolutamente necesario. Experimentación rápida

– Infraestructura elástica

– Enormes datos y gran cantidad de datos en tiempo real entrando

Casos de uso:

Resolvieron el problema de la transparencia de precios y la facilidad de reserva décadas atrás. Las imágenes es el siguiente aspecto importante.

– Imagen de categorización correcta

– Desduplicación de imágenes con alta eficiencia

– Pedido fotográfico adecuado para clientes

– Segmentos de usuario mejorados basados ​​en las tendencias en el uso de los clientes, encontrar una mejor coincidencia

Reducción del tiempo de análisis de 60 días a un par de días.

2 – UberEats

UberEATS es un mercado, una plataforma de pedidos y entrega de comidas en línea lanzada por Uber Technologies. Se asocia con restaurantes en docenas de ciudades de todo el mundo.

Caso de uso:

Clasificación y recomendación de restaurantes. Desafíos únicos porque es marketplace

Los NM convencionales se basan en un solo objetivo. Clasificación basada en el sistema de recomendación justa, utilizando el sistema Spark ML para lograr objetivos múltiples para un mercado justo.

3 – Netflix

La mayoría de las personas conocen el impresionante Sistema de recomendaciones de Netflix hace aproximadamente una década (Premio Progreso 2007). En Spark Summit 2017, Netflix ha dicho que muchas tareas de canalización para su motor de recomendaciones, como “generación de etiquetas, recuperación de datos, generación de características, capacitación, validación, se basan en el marco de Spark ML PipleStage”.

4 – BMW

Spark Summit 2017: cita del resumen del orador

“El nuevo enfoque habilitado para Apache Spark de BMW: utilice los datos disponibles de automóviles y talleres para entrenar modelos que puedan predecir la parte correcta para cambiar, o la acción a tomar”.

“Spark ayudó a BMW a aprovechar la información de millones de observaciones y miles de funciones, y aprender qué dificultades experimentaron (p. Ej., Configurar una cadena de herramientas de desarrollo que funcionara, trabajar con características de 50K, paralelizar bien) y cómo puede evitarlas”.

Yo diría que Apache Spark tiene un futuro brillante en general. Ha podido resolver algunos problemas clave en el procesamiento rápido de datos distribuidos y se ha adelantado a su tiempo en ese sentido. Tiene algunos problemas pendientes:

  1. Integración con diferentes administradores de recursos, especialmente YARN, y un trabajo fluido junto con esto
  2. El optimizador Catalyst de Spark no construye gráficos tan eficientemente como podría para operaciones desencadenadas (transformaciones combinadas con acciones en variables)
  3. El soporte para R y Python debería expandirse ya que estos son más populares que Scala para muchas tareas.

Spark 2.0 ha simplificado la API y eliminó la necesidad de usar RDD, por defecto en conjuntos de datos y marcos de datos. Esto es definitivamente prometedor.

Dicho esto, Spark definitivamente satisface la mayoría de las necesidades básicas de los científicos de datos y analistas de datos, y para muchos es una herramienta indispensable para implementar algoritmos de ML a escala. Eso no cambiará a toda prisa.

Apache Spark proporciona un amplio conjunto de herramientas, entre las que se encuentra Spark Streaming para el procesamiento de datos en streaming. Por lo tanto, esperamos que este componente tenga un buen futuro.

El verano pasado, el 23 de julio, demostramos cómo se podía utilizar Spark Streaming para recopilar los datos de rendimiento en tiempo real de los paneles solares a través de nuestra plataforma Kaa IoT. Así es como se puede usar Apache Spark en el campo de Internet de las cosas (IoT). Puede ver el video de ese seminario web aquí: Seminario web: Ingestión de datos IoT en Spark Streaming usando Kaa

La próxima semana, el 10 de septiembre, realizaremos nuestro próximo seminario web gratuito sobre un tema similar, pero para Cassandra. Es diferente de Spark, pero puede ser útil para usted, especialmente cuando necesita aprender más sobre Big Data o NoSQL.

Durante este seminario web, crearemos una solución que ingiere datos en tiempo real de un sensor de temperatura conectado a Raspberry Pi en Cassandra para su posterior procesamiento y análisis. También revisaremos algunas de las mejores prácticas en el modelado de datos de Cassandra y demostraremos lo fácil que es reutilizar ellos en Kaa IoT Platform.

Si desea ver cómo se puede usar Cassandra para recopilar datos en tiempo real de sensores de temperatura, no dude en registrarse aquí.

Spark puede usar la unidad de almacenamiento de Hadoop (HDFS) y utilizar su propio motor de procesamiento para realizar análisis de big data extremadamente rápidos. Una gran parte de los sistemas tiene problemas de compatibilidad porque MapReduce solo puede ejecutarse en Hadoop. Spark es adaptable con respecto a la compatibilidad. Utilizando Spark, puede combinar la transmisión de Spark, SparkSQL y análisis complejos en una plataforma solitaria. Tiene bibliotecas ricas que incorporan Spark SQL, GraphX ​​para procesamiento de gráficos, MLlib para aprendizaje automático, marcos de datos, conjuntos de datos y transmisión de chispas. Spark tiene API para lenguajes como Escala, Java y Python. Es fácil componer funciones definidas por el usuario. También tiene para ejecutar comandos un modo interactivo. No necesito explicar qué tan importante es Spark para el análisis de big data en el futuro. Las empresas lo adoptarán cada vez más, ya que la necesidad de análisis en tiempo real es cada vez mayor. Visite el sitio web de Intellipaat donde brindan capacitación sobre Spark que es ampliamente preferida por los profesionales de la industria en todo el mundo:

Aprenda el curso de Storm, Spark, Scala en línea – Intellipaat

La pregunta es un poco ambigua: el proyecto Spark tiene una página JIRA, donde puede ver exactamente la hoja de ruta (que es ágil): https://issues.apache.org/jira/b

si quiere decir si el proyecto va a sobrevivir a largo plazo, aquí hay un lugar para comenzar: Desarrollado por Spark – Spark – Apache Software Foundation

El futuro es brillante y duradero:

  • Proporciona procesamiento de datos sin interrupciones en R, Python, Scala / Java
  • Respaldado por IBM, MapR, …
  • Proporciona la capacidad de aprovechar RAM barata y rápida frente a Hadoop MapReduce
  • Micro lotes (simula streaming), enfoques de lotes y REPL entregados en la misma plataforma
  • No hay competencia como código abierto: las alternativas son específicas del idioma y / o no son escalables o no han alcanzado la adopción del ancho en este momento, por ejemplo, scikit-learn: aprendizaje automático en Python, los 20 paquetes principales de aprendizaje automático y ciencia de datos R, lotes escalables y datos de flujo Tratamiento
  • Documentación decente, código manejable (solo contaminado con dependencias innecesarias por defecto), gran cantidad de libros.

Apache Spark es uno de los proyectos más activos de Apache. Spark integra muchas cosas y tiene la intención de proporcionar muchas más funciones a sus usuarios. Ya ha superado todas las limitaciones de Hadoop y ha integrado casi todas las herramientas de Hadoop en su propio motor central. Es famoso por su velocidad con la que procesa los datos debido a su función en memoria. Puede ser utilizado por muchas personas debido a su rico conjunto de API en casi 4 idiomas. El futuro de Spark es realmente muy brillante.

Hay un gran revuelo en torno a este proyecto.
Muchos incluso lo consideran como Hadoop v3.
Actualmente hay más participantes activos en este proyecto que en Hadoop. Entonces parece una apuesta inteligente.