Name: CUÁNDO USAR Y NO USAR HADOOP
Uploaded: 2017-08-16T11:30:45.000Z
Duration: 16 min 17 s
Description: En este vídeo te contamos cuando usar y no usar Hadoop, el framework que almacena datos en y procesa los mismos a través de trabajos MapReduce.

CUÁNDO USAR Y NO USAR HADOOP

Introducción y presentación

Resumen de la sección: En esta sección, el instructor se presenta como ingeniero informático y desarrollador de Big Data. También menciona que hablará sobre cuándo usar Hadoop y cuándo no.

¿Cuándo usar Hadoop?

Hadoop es útil para procesar archivos de texto muy grandes, del orden de terabytes o petabytes.

Es especialmente útil cuando hay un crecimiento exponencial de datos a lo largo del tiempo.

Permite dividir los datos para lograr velocidad y escalabilidad al agregar nuevos nodos al clúster.

Es adecuado para almacenar diferentes tipos de datos en el sistema de almacenamiento HDFS.

¿Cuándo no usar Hadoop?

No es recomendable utilizar Hadoop para análisis en tiempo real, ya que trabaja en disco y puede tener largos tiempos de procesamiento.

No es adecuado para sistemas con bases de datos relacionales complejas que requieren operaciones como join o union. Se puede utilizar Apache Hive como alternativa.

No permite modificar los datos una vez escritos en el sistema HDFS. Solo se pueden añadir nuevos contenidos al final del archivo.

Malas prácticas

Evitar tener muchos archivos pequeños en el sistema HDFS, ya que está diseñado para manejar archivos grandes.

Evitar tener muchos procesos map con poca duración, ya que esto no aprovecha la paralelización de Hadoop.

Evitar tener pocos reduce para archivos muy grandes, ya que esto no aprovecha la capacidad de distribución de datos en el clúster.

Revisión y uso de Apache Hadoop

Resumen de la sección: En esta sección, el instructor introduce el tema de Apache Hadoop y discute cuándo es apropiado utilizarlo y cuándo no.

Cuándo usar Apache Hadoop

Apache Hadoop es útil cuando se necesitan procesar archivos de texto muy grandes, del orden de terabytes o petabytes.

También es útil cuando hay una previsión de crecimiento exponencial de los datos, ya que permite dividirlos para obtener velocidad y escalar fácilmente añadiendo nuevos nodos al clúster.

Es recomendable utilizarlo cuando se tienen diferentes tipos de datos, ya que el sistema de almacenamiento (HDFS) puede almacenar cualquier tipo de archivo.

Además, es importante asegurarse de tener la capacidad para manejar los datos en términos de rendimiento.

Cuándo no usar Apache Hadoop

No es adecuado utilizar Apache Hadoop cuando se necesita un análisis en tiempo real, ya que trabaja en disco y puede llevar horas o incluso días procesar grandes cantidades de datos.

Tampoco es recomendable cuando se tiene un modelo complejo con bases de datos relacionales que requieren operaciones como join o union. En este caso, se puede considerar el uso de herramientas como Apache Hive para consultas SQL sobre el HDFS.

No es útil si se requiere modificar los datos después de ser escritos en el HDFS. Solo permite añadir contenido al final del archivo o eliminarlo, pero no modificar partes específicas.

Si el trabajo requiere un procesamiento secuencial y no se puede paralelizar, Apache Hadoop no proporcionará ventajas en términos de velocidad.

También se deben evitar malas prácticas como tener muchos archivos pequeños en el HDFS o tener demasiados procesos map con poca duración.

Malas prácticas

Tener cientos de ficheros pequeños en el HDFS no es recomendable, ya que está diseñado para alojar archivos grandes.

Tener demasiados procesos map con poca duración tampoco es útil, ya que implica una paralelización excesiva y pérdida de tiempo.

En resumen, Apache Hadoop es útil para procesar grandes volúmenes de datos y escalar fácilmente. Sin embargo, no es adecuado para análisis en tiempo real, modelos complejos con bases de datos relacionales o modificaciones frecuentes de los datos. Además, se deben evitar malas prácticas que afecten al rendimiento del sistema.

Revisión final

Resumen de la sección: En esta parte del video, se realiza una revisión final antes de generar el resultado final.

Revisión final

Se realiza una revisión exhaustiva para asegurarse de que todo esté correcto antes de generar el resultado final.

Continuar con la estructura anterior según sea necesario, utilizando subtítulos y viñetas para organizar las notas. No utilizar demasiadas secciones. Seguir el orden cronológico del video y no mezclar secciones.