Desde entonces, hay muchas características de Apache Hadoop. Pero todavía hay algunas características que pueden contar en las mejores. Sin embargo, definitivamente discutiremos las mejores características, pero antes de eso, analicemos primero su breve introducción.
1.Introducción de Hadoop
Apache Hadoop es un marco de código abierto , escalable y tolerante a fallas escrito en Java . Procesa eficientemente grandes volúmenes de datos en un grupo de hardware básico. Hadoop no es solo un sistema de almacenamiento, sino también una plataforma para el almacenamiento y el procesamiento de grandes datos.
- ¿Cuál es el software comercial más caro?
- ¿Cuáles son las mejores herramientas o software de automatización que pueden facilitarle la vida?
- Soy un principiante en fotografía. ¿Cuál es el mejor software para administrar y editar fotos?
- ¿Steve Jobs nombró el software Mathematica de Stephen Wolfram?
- ¿Cuál es la mejor aplicación cuantificada que has encontrado?
Es un marco de código abierto escrito en Java . El lenguaje de programación básico de Hadoop es Java, pero esto no significa que solo pueda codificar en Java. Puede codificar en C, C ++, Perl, Python, ruby, etc. Puede codificar el marco Hadoop en cualquier lenguaje, pero será más bueno codificar en Java ya que tendrá un control de nivel inferior del código.
Hadoop consta de tres partes clave:
- Sistema de archivos distribuidos de Hadoop (HDFS): es la capa de almacenamiento de Hadoop.
- Map-Reduce : es la capa de procesamiento de datos de Hadoop.
- HILO : es la capa de administración de recursos de Hadoop.
Sin embargo, hay muchas más ideas de Hadoop, para aprender todo siga el enlace Tutorial de Hadoop – Tutoriales de Apache Hadoop para principiantes
2. Las mejores características de Apache Hadoop
- Fuente abierta
Apache Hadoop es un proyecto de código abierto. Significa que su código puede modificarse de acuerdo con los requisitos comerciales.
- Procesamiento distribuido
Como los datos se almacenan de manera distribuida en HDFS en todo el clúster, los datos se procesan en paralelo en un grupo de nodos.
- Tolerancia a fallos
Por defecto, 3 réplicas de cada bloque se almacenan en el clúster en Hadoop y también se pueden cambiar según el requisito. Entonces, si algún nodo se cae, los datos en ese nodo se pueden recuperar de otros nodos fácilmente con la ayuda de esta característica. Las fallas de los nodos o tareas son recuperadas automáticamente por el marco. Así es como Hadoop es tolerante a fallas .
- Confiabilidad
Debido a la replicación de datos en el clúster, los datos se almacenan de manera confiable en el clúster de la máquina a pesar de las fallas de la máquina. Si su máquina se cae, también sus datos se almacenarán de manera confiable debido a esta característica de Hadoop.
- Alta disponibilidad
Los datos están altamente disponibles y accesibles a pesar de la falla del hardware debido a múltiples copias de datos. Si una máquina o algunos hardware fallan, se accederá a los datos desde otra ruta.
Desde entonces, aquí discutimos solo las mejores características, por lo que hay muchas más características que también puede aprender en detalle. Para aprender todo, siga el enlace, Características de Hadoop
Además, refuerce sus habilidades de Hadoop, siga el enlace: Las 100 preguntas y respuestas más importantes de la entrevista de Hadoop