¿Qué es Hadoop?
Introducción a Hadoop
Resumen de la sección: En esta sección, se introduce el concepto de Hadoop y su importancia en los sistemas actuales. Se explora quién creó Hadoop y por qué se convirtió en una parte fundamental de muchos sistemas.
Creación de Hadoop
- Hadoop fue creado por Doug Cutting y Mike Cafarella en el año 2002.
- El nombre "Hadoop" proviene de un elefante de peluche con el que jugaba el hijo de Doug Cutting.
- El nombre sonaba bien y representaba la idea de manejar grandes volúmenes de datos.
Problema a resolver
- Los creadores estaban desarrollando un buscador web llamado "Nutch" y necesitaban indexar todas las páginas web disponibles.
- Para alimentar el buscador, necesitaban descargar y procesar una gran cantidad de páginas web.
Enfoque inicial
- La aproximación más simple era descargar todas las páginas web antes de procesarlas.
- Estimaron que necesitarían alrededor de 10.000 discos duros para almacenar toda la información.
Limitaciones del enfoque inicial
- Procesar toda esa información en un solo ordenador tomaría aproximadamente 12 años.
- Era inviable utilizar una sola máquina para este procesamiento.
Solución distribuida
- La solución era utilizar múltiples ordenadores para realizar el procesamiento en paralelo.
- Se plantea una arquitectura de maestro-esclavo, donde un ordenador coordina el trabajo y otros realizan las tareas.
- Los creadores se inspiraron en los problemas que Google había enfrentado al crear su buscador.
Influencia de Google
- Google ya había desarrollado su propio sistema de archivos distribuidos (Google File System) y un framework de procesamiento distribuido llamado MapReduce.
- En 2004, Google publicó un artículo sobre MapReduce, proporcionando a los creadores de Hadoop la inspiración necesaria.
Nacimiento de Hadoop
- En 2006, finalmente nace Hadoop como resultado del trabajo de Doug Cutting y Mike Cafarella.
- Las dos piezas clave de Hadoop son HDFS (Hadoop Distributed File System) y MapReduce.
Conclusiones
Hadoop fue creado por Doug Cutting y Mike Cafarella en 2002 como parte del desarrollo del buscador web "Nutch". Su objetivo era resolver el desafío de descargar y procesar grandes volúmenes de datos. A través del uso de una arquitectura distribuida inspirada en los sistemas desarrollados por Google, Hadoop se convirtió en una solución viable para el procesamiento de datos a gran escala. Las dos piezas clave de Hadoop son HDFS, que permite distribuir los datos entre múltiples máquinas, y MapReduce, que facilita el procesamiento distribuido del trabajo.
Características de Hadoop
Resumen de la sección: En esta sección se habla sobre las características de Hadoop y su historia. Se mencionan los hitos importantes en el desarrollo del framework, desde sus primeros esfuerzos en 2002 hasta su popularización a partir de 2008.
Historia de Hadoop
- En el año 2002, nacen los primeros esfuerzos para desarrollar Hadoop dentro del proyecto Nutch.
- En 2003 y 2004, Google publica los detalles de sus sistemas de procesamiento distribuido.
- En ese mismo período, Yahoo comienza a utilizar Hadoop como parte de su proyecto Lucy.
- Finalmente, en 2008, Hadoop entra en la Fundación Apache y comienza a ser utilizado también por Facebook.
Popularización de Hadoop
Resumen de la sección: En esta sección se habla sobre cómo Hadoop comenzó a popularizarse a partir del año 2008.
- A partir del año 2008, Hadoop empieza a ganar popularidad.
- Yahoo y Facebook son dos empresas que contribuyen significativamente a la adopción masiva de Hadoop.
- La entrada de Hadoop en la Fundación Apache también impulsa su uso en diferentes organizaciones.