CUÁNDO USAR Y NO USAR HADOOP

CUÁNDO USAR Y NO USAR HADOOP

Introducción y presentación

Resumen de la sección: En esta sección, el instructor se presenta como ingeniero informático y desarrollador de Big Data. También menciona que hablará sobre cuándo usar Hadoop y cuándo no.

¿Cuándo usar Hadoop?

  • Hadoop es útil para procesar archivos de texto muy grandes, del orden de terabytes o petabytes.
  • Es especialmente útil cuando hay un crecimiento exponencial de datos a lo largo del tiempo.
  • Permite dividir los datos para lograr velocidad y escalabilidad al agregar nuevos nodos al clúster.
  • Es adecuado para almacenar diferentes tipos de datos en el sistema de almacenamiento HDFS.

¿Cuándo no usar Hadoop?

  • No es recomendable utilizar Hadoop para análisis en tiempo real, ya que trabaja en disco y puede tener largos tiempos de procesamiento.
  • No es adecuado para sistemas con bases de datos relacionales complejas que requieren operaciones como join o union. Se puede utilizar Apache Hive como alternativa.
  • No permite modificar los datos una vez escritos en el sistema HDFS. Solo se pueden añadir nuevos contenidos al final del archivo.

Malas prácticas

  • Evitar tener muchos archivos pequeños en el sistema HDFS, ya que está diseñado para manejar archivos grandes.
  • Evitar tener muchos procesos map con poca duración, ya que esto no aprovecha la paralelización de Hadoop.
  • Evitar tener pocos reduce para archivos muy grandes, ya que esto no aprovecha la capacidad de distribución de datos en el clúster.

Revisión y uso de Apache Hadoop

Resumen de la sección: En esta sección, el instructor introduce el tema de Apache Hadoop y discute cuándo es apropiado utilizarlo y cuándo no.

Cuándo usar Apache Hadoop

  • Apache Hadoop es útil cuando se necesitan procesar archivos de texto muy grandes, del orden de terabytes o petabytes.
  • También es útil cuando hay una previsión de crecimiento exponencial de los datos, ya que permite dividirlos para obtener velocidad y escalar fácilmente añadiendo nuevos nodos al clúster.
  • Es recomendable utilizarlo cuando se tienen diferentes tipos de datos, ya que el sistema de almacenamiento (HDFS) puede almacenar cualquier tipo de archivo.
  • Además, es importante asegurarse de tener la capacidad para manejar los datos en términos de rendimiento.

Cuándo no usar Apache Hadoop

  • No es adecuado utilizar Apache Hadoop cuando se necesita un análisis en tiempo real, ya que trabaja en disco y puede llevar horas o incluso días procesar grandes cantidades de datos.
  • Tampoco es recomendable cuando se tiene un modelo complejo con bases de datos relacionales que requieren operaciones como join o union. En este caso, se puede considerar el uso de herramientas como Apache Hive para consultas SQL sobre el HDFS.
  • No es útil si se requiere modificar los datos después de ser escritos en el HDFS. Solo permite añadir contenido al final del archivo o eliminarlo, pero no modificar partes específicas.
  • Si el trabajo requiere un procesamiento secuencial y no se puede paralelizar, Apache Hadoop no proporcionará ventajas en términos de velocidad.
  • También se deben evitar malas prácticas como tener muchos archivos pequeños en el HDFS o tener demasiados procesos map con poca duración.

Malas prácticas

  • Tener cientos de ficheros pequeños en el HDFS no es recomendable, ya que está diseñado para alojar archivos grandes.
  • Tener demasiados procesos map con poca duración tampoco es útil, ya que implica una paralelización excesiva y pérdida de tiempo.

En resumen, Apache Hadoop es útil para procesar grandes volúmenes de datos y escalar fácilmente. Sin embargo, no es adecuado para análisis en tiempo real, modelos complejos con bases de datos relacionales o modificaciones frecuentes de los datos. Además, se deben evitar malas prácticas que afecten al rendimiento del sistema.

Revisión final

Resumen de la sección: En esta parte del video, se realiza una revisión final antes de generar el resultado final.

Revisión final

  • Se realiza una revisión exhaustiva para asegurarse de que todo esté correcto antes de generar el resultado final.

Continuar con la estructura anterior según sea necesario, utilizando subtítulos y viñetas para organizar las notas. No utilizar demasiadas secciones. Seguir el orden cronológico del video y no mezclar secciones.

Video description

En este vídeo te contamos cuando usar y no usar Hadoop, el framework que almacena datos en y procesa los mismos a través de trabajos MapReduce.