Descripción de los componentes de Azure Data Factory ejemplo pipeline, activities

Descripción de los componentes de Azure Data Factory ejemplo pipeline, activities

¿Qué es Azure Data Factory?

Resumen de la sección: En esta sección se explica qué es Azure Data Factory y su propósito.

Propósito de Azure Data Factory

  • Azure Data Factory es un servicio en la nube que integra y automatiza el movimiento y transformación de datos estructurados y no estructurados.
  • El propósito de Azure Data Factory es recuperar datos de uno o varios orígenes de datos, convertirlos a un formato procesable y presentarlos en formas distintas.
  • Permite extraer los datos interesantes y descartar el resto, así como transformar los datos para que sean adecuados para otros servicios.

Componentes de Azure Data Factory

Resumen de la sección: En esta sección se explican los componentes principales de Azure Data Factory.

Componentes principales

  • Los dos componentes principales son:
  • Data sets: conjunto de datos que puede ser definido como entrada o salida. Admite distintos tipos de datos.
  • Activity: define cada actividad posible a realizar dentro del pipeline.

Pipelines

  • Un pipeline es un modelo lógico compuesto por actividades con el objetivo final de una tarea. Puede contener un conjunto de actividades para ingerir, limpiar, analizar e insertar una serie de datos en una SQL destino.

Integración con otros servicios

  • El Integration Service permite conectar Azure Data Factory con otros servicios como Storage Account, Blob Storage, SQL Server, etc.

Diseño e implementación en Azure Data Factory

Resumen de la sección: En esta sección se explica el proceso de diseño e implementación en Azure Data Factory.

Proceso de diseño e implementación

  • El proceso de diseño e implementación incluye:
  • Definir objetivos y flujo a seguir.
  • Crear el servicio desde el portal de Azure mediante PowerShell o mediante un proyecto en Visual Studio.
  • Crear el Linked Service, que es la conexión a los distintos servicios externos a Azure Data Factory.
  • Crear los Data sets, que son los conjuntos de datos de entrada y salida.
  • Crear los Pipelines, que contienen todas las actividades necesarias para completar los distintos pipelines.
  • Monitorizar las distintas ejecuciones de los pipelines.

Compilación e implementación con Azure DevOps

Resumen de la sección: En esta sección se explican las opciones para compilar e implementar con Azure DevOps.

Opciones disponibles

  • Las opciones disponibles son:
  • Build Agents: pueden compilar e implementar aplicaciones en Node.js, Python, Java, PHP y Ruby. Pueden ejecutarse en archivos temporales o en Linux, Mac y Windows.
  • Containers and Kubernetes: permiten compilar e insertar fácilmente imágenes de registros de contenedor como Docker Hub y Azure Container Registry. Permiten implementar contenedores en juegos individuales o Kubernetes.
  • Extensions: permiten explorar e implementar una gran variedad de tareas creadas por la comunidad junto con cientos de extensiones desde Slack hasta SonarCloud.

Ventajas

  • Las ventajas son:
  • Permite implementar entregas continuas del software en cualquier nube como Azure, AWS y GCP.
  • Utiliza código abierto que permite asegurar canalizaciones rápidas de integración y entregas continuas para todos los proyectos de código abierto.
  • Facilita estudios trabajos en paralelo con minutos de compilación limitados para todos los proyectos de código abierto.

Ejemplo real

Resumen de la sección: En esta sección se presenta un ejemplo real del uso de Azure Data Factory.

Ejemplo

  • Una compañía tiene una serie de dispositivos para el seguimiento del trabajo de sus empleados. Estos dispositivos van trazando toda la información desde la hora de inicio de la jornada, la posición GPS e incidencias en el servicio. Con Azure Data Factory, es posible ingerir estos datos, limpiarlos y analizarlos para obtener información valiosa sobre el desempeño laboral.