¿Qué es Hadoop?

¿Qué es Hadoop y para qué sirve?

Hadoop es un framework de código abierto, escrito en java con algo de código C y Shell Script, se utiliza para almacenar datos y realizar aplicaciones en clúster de hardware comercial, tiene la capacidad de ejecutar aplicaciones distribuidas y adaptables, facilita el almacenamiento masivo para cualquier tipo de datos, su poder de procesamiento es enorme y la amplitud de procesar trabajos o tareas concurrentes de forma virtualmente es ilimitada.

Tiene un poder de cómputo importante, cuantos más nodos de cómputo utiliza, el poder de procesamiento es mayor. En cuanto a la flexibilidad, podemos recalcar que, a diferencia de otras bases de datos, éste no tiene que procesar previamente los datos antes de ser almacenados, por tanto, puede almacenar tantos datos como quiera y decidir como desea utilizarlos más tarde.

Hadoop tiene un nivel de almacenamiento de bits y procesos de datos alto, tiene una alta confiabilidad, además de ser tolerante a fallos, su tecnología permite almacenar grandes cantidades de datos, y permite a su vez, recuperarlos de forma segura, siempre se cuenta con una copia disponible para que sea posible la recuperación de los datos en caso de que suceda algún fallo.

A continuación, veamos en los tres modos diferentes de como funciona Hadoop:

  • Modo autónomo
  • Modo pseudo – distribuido
  • Modo distribuido

Modo Autónomo o local: Se ejecuta en un solo nodo en un único proceso java 

Modo pseudo – distribuido:  También es utilizado un solo nodo, por defecto está configurado para correr en modo no distribuido, pero cada Daemon se ejecuta en un proceso java diferente.

Modo distribuido: Este es le mas importante, ya que se utilizan clúster de varios nodos, cuando se va a montar Hadoop en producción se lo utiliza en modo distribuido, en cambio el pseudodistribuido se utiliza para desarrollo.

hadoop-c

¿Cómo es la arquitectura de Hadoop?

Para que podamos entender la estructura de Hadoop, debemos conocer sus componentes principales que son:

MapReduce: Este framework, es un modelo de programación que da el soporte a la computación. Consiste en dividir el trabajo en múltiples tareas reduciendo el tiempo de acceso a los datos y los movimientos entre los nodos y el clúster.

Yarn (Yet Another Resuorce Negotiatior): Otro framework, su función es soportar varios motores de ejecución incluyendo a MapReduce, es una de las funciones claves de la versión Hadoop 2, se caracteriza como un sistema operático distribuido a gran escala para aplicaciones de Big Data.

HDFS (Hadoop Distribuited File System): Es un componente de Hadoop que tiene como misión distribuir cantidades masivas de datos estructurados semi – estructurados y no estructurados como imágenes, videos, etc., garantizando una disponibilidad altísima y una tolerancia a fallos.

Hadoop Common: Proporciona la infraestructura para el inicio de Hadoop, como los archivos.jar (Java ARchive) y scripts, aporta las utilidades y bibliotecas comunes que permiten desarrollar las aplicaciones.

Data Nodes: Almacena los datos en el sistema Hadoop, y los facilita cuando son solicitados. Un clúster HDFS puede tener varios DataNode, con datos replicados entre ellos.

JobTracker: Está encargado de coordinar las tareas, también de corroborar si existen errores, y si es así, se reprograman en otro DataNode.

TaskTracker: Este nodo del clúster de Hadoop que ejecuta tareas, es el responsable de correr los MapReduce que son asignados por JobTracker.

¿Quieres aprender Hadoop y Big Data en CNAC IT?

En este articulo te hemos explicado qué es Hadoop y sus aplicaciones empresariales.

Si te quieres dedicar al mundo de Big Data y Hadoop, con nosotros puedes cambiar tu carrera profesional, en CNAC IT podemos ayudarte con nuestra oferta académica en la que vas aprender Hadoop de la mano de profesionales.

En nuestra oferta formativa encontrarás nuestro Curso Experto en  Big Data e Inteligencia ArtificalCurso Experto en Programación Python, y nuestros másteres Máster full Stack DeveloperMaster java y Python, no dudes con contactar con nuestros asesores para empezar a cambiar tu futuro.

Departamento de comunicación

Fuente: CNAC IT

Cursos relacionados

BECAS DE HASTA EL 65%

Máster Desarrollo Web Full Stack Developer

En este Máster Web Full Stack Developer,  dominaras los lenguajes de programación y framework, demandados por las empresas en Front-End y Back-End.

BECAS DE HASTA EL 70%

Máster Experto en Java EE Spring e Hibernate

Crearás aplicaciones profesionales en este Máster de aplicaciones empresariales en Java EE, con Spring e Hibernate empezando desde cero.

BECAS DE HASTA EL 65%

Máster en Diseño y Programación de Aplicaciones Emp. Java EE

En este Máster aprenderás a crear aplicaciones empresariales en Java EE, empezando desde cero, de forma práctica y fácil.