¿Qué es Hadoop?

¿Qué es Hadoop?

Introducción a Hadoop

Resumen de la sección: En esta sección, se introduce el concepto de Hadoop y su importancia en los sistemas actuales. Se explora quién creó Hadoop y por qué se convirtió en una parte fundamental de muchos sistemas.

Creación de Hadoop

  • Hadoop fue creado por Doug Cutting y Mike Cafarella en el año 2002.
  • El nombre "Hadoop" proviene de un elefante de peluche con el que jugaba el hijo de Doug Cutting.
  • El nombre sonaba bien y representaba la idea de manejar grandes volúmenes de datos.

Problema a resolver

  • Los creadores estaban desarrollando un buscador web llamado "Nutch" y necesitaban indexar todas las páginas web disponibles.
  • Para alimentar el buscador, necesitaban descargar y procesar una gran cantidad de páginas web.

Enfoque inicial

  • La aproximación más simple era descargar todas las páginas web antes de procesarlas.
  • Estimaron que necesitarían alrededor de 10.000 discos duros para almacenar toda la información.

Limitaciones del enfoque inicial

  • Procesar toda esa información en un solo ordenador tomaría aproximadamente 12 años.
  • Era inviable utilizar una sola máquina para este procesamiento.

Solución distribuida

  • La solución era utilizar múltiples ordenadores para realizar el procesamiento en paralelo.
  • Se plantea una arquitectura de maestro-esclavo, donde un ordenador coordina el trabajo y otros realizan las tareas.
  • Los creadores se inspiraron en los problemas que Google había enfrentado al crear su buscador.

Influencia de Google

  • Google ya había desarrollado su propio sistema de archivos distribuidos (Google File System) y un framework de procesamiento distribuido llamado MapReduce.
  • En 2004, Google publicó un artículo sobre MapReduce, proporcionando a los creadores de Hadoop la inspiración necesaria.

Nacimiento de Hadoop

  • En 2006, finalmente nace Hadoop como resultado del trabajo de Doug Cutting y Mike Cafarella.
  • Las dos piezas clave de Hadoop son HDFS (Hadoop Distributed File System) y MapReduce.

Conclusiones

Hadoop fue creado por Doug Cutting y Mike Cafarella en 2002 como parte del desarrollo del buscador web "Nutch". Su objetivo era resolver el desafío de descargar y procesar grandes volúmenes de datos. A través del uso de una arquitectura distribuida inspirada en los sistemas desarrollados por Google, Hadoop se convirtió en una solución viable para el procesamiento de datos a gran escala. Las dos piezas clave de Hadoop son HDFS, que permite distribuir los datos entre múltiples máquinas, y MapReduce, que facilita el procesamiento distribuido del trabajo.

Características de Hadoop

Resumen de la sección: En esta sección se habla sobre las características de Hadoop y su historia. Se mencionan los hitos importantes en el desarrollo del framework, desde sus primeros esfuerzos en 2002 hasta su popularización a partir de 2008.

Historia de Hadoop

  • En el año 2002, nacen los primeros esfuerzos para desarrollar Hadoop dentro del proyecto Nutch.
  • En 2003 y 2004, Google publica los detalles de sus sistemas de procesamiento distribuido.
  • En ese mismo período, Yahoo comienza a utilizar Hadoop como parte de su proyecto Lucy.
  • Finalmente, en 2008, Hadoop entra en la Fundación Apache y comienza a ser utilizado también por Facebook.

Popularización de Hadoop

Resumen de la sección: En esta sección se habla sobre cómo Hadoop comenzó a popularizarse a partir del año 2008.

  • A partir del año 2008, Hadoop empieza a ganar popularidad.
  • Yahoo y Facebook son dos empresas que contribuyen significativamente a la adopción masiva de Hadoop.
  • La entrada de Hadoop en la Fundación Apache también impulsa su uso en diferentes organizaciones.
Video description

Hadoop es la tecnología básica del mundo Big Data. Para empezar en el mundo Big Data, hay que entender qué es Hadoop. En este vídeo te contamos qué es, cómo surgió y porqué muchas empresas lo están utilizando para construir las nuevas plataformas Big Data que les permiten procesar datos con un volumen y una velocidad inalcanzables hasta ahora para las tecnologías tradicionales