¿Se puede integrar big data con back end dev?

Como nuestra directora de producto, Yoela Palkin afirma: “Sí, todo es posible cuando se configura con una pila para admitir big data”.

Ella sugiere que antes de comenzar a integrar big data, estas son las tres preguntas que debe responder:

1. ¿Puede aprovechar los servicios en la nube actuales para mantener una infraestructura de datos? Antes de elegir AWS, Google Cloud, etc., deberá conocer su capacidad de almacenamiento y las necesidades de sus conjuntos de datos actuales y en crecimiento. El poder computacional es la clave para poder escalar rápidamente. Si la respuesta es sí, desplácese hacia abajo hasta la SECCIÓN B

2. ¿Su arquitectura de base de datos admite Big Data? Cuando se trata de aplicaciones móviles, los datos se recopilan de múltiples sistemas y deben presentarse en un formato en el que una persona pueda tomar medidas. Por ejemplo, las empresas deberían considerar usar Hive o competidores como BigQuery o Cloudera de Google para desbloquear datos de eventos JSON sin procesar de las bases de datos. Estas empresas trabajan con formatos de entrada en columnas, como RCFile y ORC, que permiten a los usuarios reducir las operaciones de lectura en consultas analíticas y permiten acceder a los datos con mayor facilidad. Al organizar los datos para que sean más fáciles de leer y accesibles, las empresas podrán centrarse en los datos recopilados en lugar del proceso para desbloquear los conocimientos empresariales de sus aplicaciones móviles.

3. ¿Cómo utilizará las consultas en tiempo real? Hoy, gracias a las soluciones rápidas de SQL on Hadoop como Presto-as-a-Service en la nube, las consultas de datos en tiempo real son mucho más fáciles de hacer. Las soluciones de consulta en tiempo real pueden ayudar a lograr una velocidad acelerada para obtener información a través de un proceso interactivo e incremental. Permite a los usuarios evadir canalizaciones de datos lentos mediante la transmisión de conjuntos de datos detallados directamente a Hadoop. También es importante tener en cuenta que los metadatos analizados en Hadoop son compartidos por todos los procesos. Esto significa que si los usuarios pueden extraer un significado adicional de los datos durante las sesiones de consulta en tiempo real, estas adiciones se vuelven visibles para los otros procesos en el sistema.

SECCIÓN B: porque si determina que la nube cumple con la capacidad y las necesidades de almacenamiento

Esto se hace comúnmente mediante el uso de servicios de computación en la nube. Generalmente hay tres niveles diferentes de opciones de abstracción:

1) Software como servicio

2) Plataforma como servicio,

3) Infraestructura como servicio. (Esto puede sustituirse por cualquier configuración de red, almacenamiento y cómputo, es decir, nube híbrida, almacenamiento conectado en red, etc.)

Los CTO realmente inteligentes están evaluando el cálculo de estas opciones en relación con los tipos y el volumen de datos que se procesarán hoy y dentro de 7 años. Este tema es una publicación completamente diferente. A continuación se ilustra un problema: el rendimiento de la nube

Según lo definido por la definición NIST de computación en la nube, que es un informe de NIST que tiene como objetivo aclarar algunos de los términos para la computación en la nube y permitir a los usuarios comparar estos diferentes servicios.

1) El software como servicio es el nivel más alto para obtener una aplicación completa orientada al usuario. Ejemplos de esta aplicación son Splunk Storm, que es una versión alojada del producto de agregación de registros de Splunk y se llama Storm. Le permite visualizar y recopilar datos de registros y Tableau Online, que es una versión en línea del software de visualización Tableau. Estas son aplicaciones de usuario final que los usuarios comerciales o analistas o simplemente clientes usarán directamente, de la misma manera que usarían el software instalado en una máquina local. Esto está bien si no necesita saber nada sobre cómo el proveedor lo hospeda o administra en el back-end.

2) El siguiente nivel es la plataforma como servicio.

Plataforma significa que estos son servicios orientados al desarrollador. Un ejemplo podría ser un host de aplicación web o una base de datos. Es más que solo máquinas en bruto.

No puede comenzar a lanzar programas en la máquina por un usuario comercial. Por lo general, los utiliza como componentes en una aplicación más grande. Dos ejemplos de esto son:

  1. Servicio de base de datos alojada de Amazon, RDS y
  2. MapReduce alojado en Amazon.

Tanto RDS como MapReduce ofrecen abstracciones que podría utilizar para crear una aplicación. RDS le permite alojar una base de datos relacional.

MapReduce le permite ejecutar cálculos con y contra una API estándar.

Amazon se los ofrece, aunque aún necesita introducir algún código que ejecute las consultas de la base de datos o los trabajos de MapReduce.

No obtienes control total sobre los recursos y la dependencia de terceros es algo que los clientes empresariales preguntarán. (o que tal vez quiera minimizar según su mercado). En este caso, Amazon todavía está asignando los recursos y descubriendo cómo los van a compartir entre los usuarios.

3A) Por último, el nivel más bajo de “preproducción” es la infraestructura como servicio.

En este caso, se trata solo de recursos informáticos sin recursos, sin usuarios comerciales o recursos para desarrolladores. Lo que sí tienes es que tienes libertad y haces lo que quieras con ellos. Por ejemplo, la mayoría de los proveedores de la nube le permiten lanzar máquinas virtuales. Puede ejecutar lo que quiera en el servidor IAAS.

3B) también hay muchos servicios de almacenamiento en la nube que proporcionan discos virtuales. Simplemente conecta este disco a una máquina virtual. Luego puede ejecutar una base de datos en él o un sistema de archivos o cualquier otra cosa que desee.

Estos son los tres niveles de abstracción que la mayoría de los arquitectos los ven.

Sus requisitos de seguridad y otros requisitos del cliente determinarán si elige si necesitará escribir la aplicación y administrarla usted mismo, o ir con una alojada, o usar un componente de plataforma que esté en algún punto intermedio.

Además, nuestro Jefe de Producto señala que en el proceso de selección de soluciones de Big Data, es importante pensar de manera integral y considerar las prioridades comerciales, recordando que estas prioridades están sujetas a cambios. Dicho esto, no existe una solución de infraestructura de “talla única”. Lo que hace que la nube sea atractiva es su infraestructura elástica, que puede permitir otras dimensiones que hacen que el negocio sea más ágil y de alto rendimiento.

Aquí hay un buen resumen y más detalles sobre cómo elegir e integrar big data: http://insights.dice.com/2012/11…

En Medigram, siempre estamos interesados ​​en brindar información cualitativa a nuestros clientes sobre millones de puntos de datos recopilados a través de nuestras diferentes aplicaciones de plataforma. Cuando pensamos en la estrategia de big data, generalmente comenzamos con la evaluación de los niveles de almacenamiento, luego pasamos a preguntar qué tan rápido es la expectativa de rendimiento y finalmente analizamos los desafíos de capacidad con el modelo para identificar mejoras de escala para el futuro.

** Gran parte de la sección de computación en la nube de esta respuesta proviene de mis notas sobre la conferencia del profesor Michael Stonebraker en el curso MITProfessionalX- 6.BDx