CUÁNDO USAR Y NO USAR HADOOP
Introducción y presentación
Resumen de la sección: En esta sección, el instructor se presenta como ingeniero informático y desarrollador de Big Data. También menciona que hablará sobre cuándo usar Hadoop y cuándo no.
¿Cuándo usar Hadoop?
- Hadoop es útil para procesar archivos de texto muy grandes, del orden de terabytes o petabytes.
- Es especialmente útil cuando hay un crecimiento exponencial de datos a lo largo del tiempo.
- Permite dividir los datos para lograr velocidad y escalabilidad al agregar nuevos nodos al clúster.
- Es adecuado para almacenar diferentes tipos de datos en el sistema de almacenamiento HDFS.
¿Cuándo no usar Hadoop?
- No es recomendable utilizar Hadoop para análisis en tiempo real, ya que trabaja en disco y puede tener largos tiempos de procesamiento.
- No es adecuado para sistemas con bases de datos relacionales complejas que requieren operaciones como join o union. Se puede utilizar Apache Hive como alternativa.
- No permite modificar los datos una vez escritos en el sistema HDFS. Solo se pueden añadir nuevos contenidos al final del archivo.
Malas prácticas
- Evitar tener muchos archivos pequeños en el sistema HDFS, ya que está diseñado para manejar archivos grandes.
- Evitar tener muchos procesos map con poca duración, ya que esto no aprovecha la paralelización de Hadoop.
- Evitar tener pocos reduce para archivos muy grandes, ya que esto no aprovecha la capacidad de distribución de datos en el clúster.
Revisión y uso de Apache Hadoop
Resumen de la sección: En esta sección, el instructor introduce el tema de Apache Hadoop y discute cuándo es apropiado utilizarlo y cuándo no.
Cuándo usar Apache Hadoop
- Apache Hadoop es útil cuando se necesitan procesar archivos de texto muy grandes, del orden de terabytes o petabytes.
- También es útil cuando hay una previsión de crecimiento exponencial de los datos, ya que permite dividirlos para obtener velocidad y escalar fácilmente añadiendo nuevos nodos al clúster.
- Es recomendable utilizarlo cuando se tienen diferentes tipos de datos, ya que el sistema de almacenamiento (HDFS) puede almacenar cualquier tipo de archivo.
- Además, es importante asegurarse de tener la capacidad para manejar los datos en términos de rendimiento.
Cuándo no usar Apache Hadoop
- No es adecuado utilizar Apache Hadoop cuando se necesita un análisis en tiempo real, ya que trabaja en disco y puede llevar horas o incluso días procesar grandes cantidades de datos.
- Tampoco es recomendable cuando se tiene un modelo complejo con bases de datos relacionales que requieren operaciones como join o union. En este caso, se puede considerar el uso de herramientas como Apache Hive para consultas SQL sobre el HDFS.
- No es útil si se requiere modificar los datos después de ser escritos en el HDFS. Solo permite añadir contenido al final del archivo o eliminarlo, pero no modificar partes específicas.
- Si el trabajo requiere un procesamiento secuencial y no se puede paralelizar, Apache Hadoop no proporcionará ventajas en términos de velocidad.
- También se deben evitar malas prácticas como tener muchos archivos pequeños en el HDFS o tener demasiados procesos map con poca duración.
Malas prácticas
- Tener cientos de ficheros pequeños en el HDFS no es recomendable, ya que está diseñado para alojar archivos grandes.
- Tener demasiados procesos map con poca duración tampoco es útil, ya que implica una paralelización excesiva y pérdida de tiempo.
En resumen, Apache Hadoop es útil para procesar grandes volúmenes de datos y escalar fácilmente. Sin embargo, no es adecuado para análisis en tiempo real, modelos complejos con bases de datos relacionales o modificaciones frecuentes de los datos. Además, se deben evitar malas prácticas que afecten al rendimiento del sistema.
Revisión final
Resumen de la sección: En esta parte del video, se realiza una revisión final antes de generar el resultado final.
Revisión final
- Se realiza una revisión exhaustiva para asegurarse de que todo esté correcto antes de generar el resultado final.
Continuar con la estructura anterior según sea necesario, utilizando subtítulos y viñetas para organizar las notas. No utilizar demasiadas secciones. Seguir el orden cronológico del video y no mezclar secciones.