Módulo 2 Clase 5 Big Data y Plataforma del dato AGE
Introducción a Microservicios y Big Data
Dudas sobre Microservicios
- El instructor se dirige a los alumnos, utilizando "vosotras" para referirse a un grupo mayoritariamente femenino. Se ofrece para resolver dudas sobre microservicios y ejercicios resueltos.
- Ana menciona que no recuerda si tiene dudas, pero el instructor anima a aprovechar la clase para hacer preguntas mientras se realizan ejercicios.
Introducción al Big Data
- Se inicia la discusión sobre Big Data, destacando su relevancia en la administración pública y la necesidad de estar preparados para su implementación.
- El instructor pregunta qué saben los alumnos sobre Big Data y explica que es un campo que ha existido durante años, pero ahora está tomando más importancia.
Conceptos Clave de Big Data
- Se mencionan las plataformas de Big Data y el tratamiento masivo de datos como temas centrales. También se introduce el concepto de economía del dato y la obligación europea de compartir datos.
- La ley europea de gobernanza de datos (Data Governance Act) es citada como una normativa importante que afecta cómo se manejan los datos en las administraciones públicas.
Características del Big Data
Las 5 Vs del Big Data
- El instructor presenta las 5 Vs: volumen, variedad, velocidad, veracidad y valor. Estas características son esenciales para entender cómo funciona el sistema tecnológico detrás del Big Data.
- Se explican los tipos de datos: estructurados (relacionados), semiestructurados (XML, CSV), y no estructurados (imágenes, vídeos).
Relación con Inteligencia Artificial
- La conexión entre el procesamiento masivo de datos e inteligencia artificial es discutida; se menciona cómo el machine learning puede extraer conclusiones valiosas a partir de grandes volúmenes de información.
Aplicaciones Prácticas en Supuestos Administrativos
Tipos de Supuestos Administrativos
- Se describen tres tipos principales de supuestos administrativos: procedimientos administrativos tradicionales, servicios públicos al ciudadano/empresas, y sistemas internos dentro de organizaciones.
- Un cuarto tipo mencionado es un ejercicio específico relacionado con plataformas puras de Big Data.
Estrategias para Destacar en Ejercicios
- El instructor aconseja utilizar ejemplos creativos relacionados con big data en los supuestos prácticos para destacar en exámenes o evaluaciones.
- Resalta la importancia de integrar conceptos innovadores como ingesta desde redes sociales o gobierno del dato en las respuestas a los ejercicios propuestos.
¿Cómo se aplica la inteligencia artificial en proyectos de datos?
Identificación de Proyectos y Espacios de Datos
- Se requiere identificar posibles proyectos de datos para la disponibilidad de información en el datalake de la AG, enfatizando que esto ha sido un tema recurrente en exámenes anteriores.
- Es crucial describir los puntos del proyecto donde se puede aplicar inteligencia artificial, así como las tecnologías a utilizar, incluyendo sus ventajas y desventajas frente a enfoques tradicionales.
- Se deben analizar los espacios de datos necesarios para garantizar la interoperabilidad entre la AG y la Unión Europea, destacando su importancia como un imperativo actual.
Importancia del Tratamiento Masivo de Datos
- El tratamiento masivo de datos (big data) permite mejorar la experiencia del usuario y optimizar procesos internos, además de facilitar el desarrollo de productos y servicios más allá de lo que estipula la ley.
- La toma de decisiones informadas es esencial; se critica que muchas decisiones políticas no se basan en datos concretos sino en suposiciones o intereses partidistas.
Relación entre Business Intelligence y Big Data
- La mejora en la toma de decisiones es un objetivo clave; el Business Intelligence está estrechamente relacionado con el big data, proporcionando herramientas para analizar grandes volúmenes de información.
- Aunque están relacionados, no son lo mismo: el big data ofrece una gran cantidad de datos que pueden ser analizados por herramientas específicas para obtener insights relevantes.
Internet de las Cosas y Toma Automática de Decisiones
- En el contexto del Internet de las Cosas (IoT), los dispositivos generan grandes cantidades de datos que pueden ser procesados automáticamente gracias a tecnologías avanzadas.
- El volumen es fundamental para definir qué constituye big data; sistemas pequeños no deben confundirse con esta categoría.
Edge Computing y Democratización del Dato
- El edge computing permite procesar datos directamente en dispositivos como robots o sensores, mejorando tiempos de respuesta y autonomía operativa.
- La democratización del dato implica que cualquier persona dentro una organización puede acceder a información relevante, promoviendo una cultura analítica más amplia. Esto transforma cómo se utilizan los datos dentro del ámbito público.
Transformación Digital en Administraciones Públicas
- Las organizaciones están atravesando una transformación digital hacia una mayor madurez tecnológica, enfrentándose al reto sobre cómo asegurar transparencia y acceso equitativo a los datos.
- Cualquier miembro organizacional puede involucrarse con análisis interdepartamentales utilizando herramientas adecuadas para explorar relaciones entre diferentes áreas mediante variables compartidas.
Transformación Digital y Democratización de Datos
La Naturaleza de los Datos
- Los datos no son solo propiedad individual, sino que pertenecen a toda la organización y a la sociedad en general. Esto implica un enfoque colaborativo en el manejo de datos.
- Se está viviendo una transformación digital continua, donde las empresas están evolucionando hacia ser "data driven", es decir, guiadas por los datos.
Retos y Paradigmas Nuevos
- El cambio actual representa un nuevo paradigma con soporte tecnológico robusto y servicios comunes, enfocándose en la democratización del dato.
- Las "cinco Vs" del big data (volumen, velocidad, variedad, veracidad y valor) son fundamentales para entender cómo se manejan los datos hoy en día.
Las Cinco Vs del Big Data
Volumen
- El volumen se refiere a la gran cantidad de datos generados. No todos los grandes volúmenes constituyen big data; debe haber un contexto adecuado.
Velocidad
- La velocidad indica el ritmo al que crecen los datos. Estos deben ser analizados en tiempo real, reflejando su naturaleza dinámica.
Variedad
- La variedad abarca diferentes fuentes e formatos de información: estructurados, no estructurados e inestructurados. Esto permite una integración más rica de datos diversos.
Veracidad
- La veracidad se centra en la calidad y confiabilidad de los datos. Es crucial asegurar que la información sea precisa para mantener su utilidad.
Valor
- Los datos deben aportar beneficios tangibles a las organizaciones. No se trata solo de acumular información; debe tener un propósito claro que genere valor.
Legislación y Normativas sobre Datos
- La ley 3727 ha sido reformada recientemente para adaptarse a directivas europeas sobre reutilización de información del sector público, destacando su relevancia actual.
- Se introducen conceptos como "high value datasets" (HVD), enfatizando la importancia de ciertos conjuntos de datos que pueden ofrecer un alto valor social al cruzar diferentes tipos de información.
La Economía del Dato y su Ciclo de Vida
Importancia de los Datos en la Economía
- Se discute cómo el alquiler de embarcaciones y la detección de nichos pueden generar valor económico, destacando que los datos son fundamentales para identificar fugas de capital.
- Se menciona una reunión interministerial sobre la Oficina del Dato, donde se comparten experiencias y se avanza en normativa relacionada con el manejo de datos.
El Ciclo de Vida del Dato
- Se introduce el concepto del ciclo de vida del dato, que incluye etapas como producción, ingesta, almacenamiento, procesamiento y consumo.
- La ingesta es un término clave; implica conectar a diversas fuentes para extraer datos mediante procesos ETL (Extracción, Transformación y Carga).
Procesamiento y Consumo de Datos
- El procesamiento transforma los datos almacenados en información valiosa. Es crucial para generar insights útiles a partir de los datos.
- El consumo se refiere a cómo los ciudadanos o sistemas acceden a estos datos. La capa de presentación es esencial para hacer que los datos sean utilizables.
Renovación y Pertinencia del Dato
- Se enfatiza la necesidad de revisar continuamente la pertinencia del dato. Los datos no solo crecen; también evolucionan y pueden perder relevancia histórica.
- Se hace referencia a normativas sobre calidad y gestión del dato, subrayando que algunos datos pueden transformarse o volverse obsoletos.
Fuentes y Orígenes de Datos
- Se exploran las diferentes fuentes desde las cuales se puede obtener información: bases relacionales, sistemas no SQL, APIs como Facebook, entre otros.
- En el contexto organizacional, se describe cómo múltiples áreas contribuyen al sistema mediante la ingesta continua desde diversas plataformas.
Tipos de Ingesta: Batch vs Streaming
- Se explican dos tipos principales de ingesta: batch (por lotes), donde los datos se recopilan periódicamente; e ingestión streaming (en tiempo real), donde los datos son procesados inmediatamente al ser generados.
- La ingesta batch tiene un inicio y fin definidos; mientras que el streaming está siempre activo para captar actualizaciones instantáneamente.
¿Cómo gestionar la ingesta y almacenamiento de datos?
Tipos de conectores para la ingesta de datos
- La naturaleza del origen de los datos determina el tipo de conector necesario para su ingesta.
Diferencias entre consumo de datos
- Consumir datos en streaming desde una API es diferente a consumirlos desde una base de datos relacional, lo que requiere configuraciones específicas.
Proceso de ingesta y almacenamiento
- La ingesta implica trasladar datos desde sus orígenes a un sistema de almacenamiento donde se procesarán.
Herramientas para Big Data
- Se presentan herramientas relacionadas con Apache Hadoop, un software libre especializado en el tratamiento masivo de datos. Es importante conocer estas herramientas por su relevancia en exámenes.
Opciones de almacenamiento
- Los datos pueden almacenarse en bases de datos, data warehouses o data lakes, dependiendo del contexto y las necesidades organizativas.
¿Cuáles son las diferencias entre Data Warehouse y Data Lake?
Definiciones clave
- Un data lake permite almacenar tanto datos estructurados como no estructurados, mientras que un data warehouse está diseñado específicamente para almacenar solo datos estructurados.
Estructura y procesamiento
- En un data warehouse, los datos están organizados en tablas; en cambio, un data lake puede contener cualquier tipo de dato sin estructura predefinida.
Usos específicos
- El análisis histórico y business intelligence son más comunes en data warehouses, mientras que los data lakes permiten análisis más flexibles como aprendizaje automático y análisis en tiempo real.
Ventajas y desventajas: Data Warehouse vs. Data Lake
Ventajas
- Ambos sistemas tienen ventajas como eficiencia (data warehouse), escalabilidad (data lake), rendimiento (data warehouse), flexibilidad (data lake).
Desventajas
- Los data warehouses requieren estructuras definidas para los datos, lo cual puede ser costoso y complejo. Por otro lado, los datalakes permiten mayor libertad al almacenar información sin restricciones estrictas.
Herramientas asociadas a Hadoop
- Las herramientas relevantes incluyen HVE para el manejo del data warehouse dentro del ecosistema Hadoop.
¿Cómo se relaciona la nube con el rendimiento y escalabilidad en Big Data?
Importancia de la escalabilidad en la nube
- La escalabilidad es crucial para evitar un deterioro del rendimiento, especialmente en sistemas de almacenamiento como data warehouses y data lakes.
- En la nube, el modelo de pago por uso facilita la escalabilidad, eliminando la necesidad de adquirir hardware adicional cuando se requiere más capacidad.
- Se necesita una mayor capacidad de cómputo (más núcleos y tarjetas GPU) para procesar grandes volúmenes de datos, lo que hace que los sistemas en la nube sean más adecuados para Big Data.
Procesamiento y capacidades necesarias
- La contratación en la nube puede ser más eficiente que mantener infraestructura propia, especialmente al manejar grandes volúmenes de datos.
- Un data lake es ideal para almacenar volúmenes muy grandes de datos, mientras que un data warehouse puede adaptarse a organizaciones de cualquier tamaño.
¿Qué papel juega el procesamiento en Big Data?
Diferenciación entre Machine Learning y procesamiento básico
- El machine learning no es el único enfoque; también se requiere realizar análisis estadísticos básicos como media y varianza.
- Es esencial aplicar algoritmos adecuados a los datos antes del machine learning; esto incluye depuración selectiva y procesamiento general.
Perfiles necesarios para el procesamiento
- Para proyectos avanzados, se necesitan expertos no solo en programación Java sino también en Python y librerías específicas de machine learning.
¿Cómo influye la gobernanza sobre los metadatos?
Conceptos clave sobre gobernanza
- La gobernanza implica gestionar adecuadamente los datos dentro de una organización mediante diccionarios de datos y metadatos.
- Los metadatos son esenciales para entender las variables dentro de un conjunto de datos; incluyen tanto información estructural como compleja relacionada con el negocio.
Virtualización e integración de datos
- Al procesar información desde diversas fuentes (como bases NoSQL), es importante crear una capa de virtualización que presente los datos como homogéneos.
- Esta capa debe estar bien gobernada e incluir seguridad adecuada para asegurar integridad y accesibilidad.
¿Qué es la virtualización de datos?
Introducción a la virtualización
- La virtualización permite mostrar datos sin dar acceso directo al almacenamiento, facilitando el procesamiento y almacenamiento de resultados.
- Se mencionan "vistas" como una forma de presentar los datos, aunque con complejidades en su implementación.
Funciones de la capa de virtualización
- La capa de integración combina datos de diversas fuentes (bases de datos, sistemas de archivos, etc.) sin necesidad de moverlos.
- Permite realizar transformaciones básicas en los datos para satisfacer las necesidades del usuario, incluyendo normalización y desnormalización.
Consultas y transformaciones
- Las consultas pueden ser en vivo y permiten transformar datos básicos; se pueden conectar a diferentes bases como Oracle o MySQL.
- La herramienta ofrece múltiples funcionalidades para cruzar orígenes y realizar análisis conceptuales.
¿Cómo se consume la información?
Visualización y APIs
- El consumo implica visualizar datos o acceder a ellos mediante APIs; se menciona el concepto de "pificación".
- Se habla sobre cuadros de mando analíticos que permiten visualizar estadísticas e indicadores relevantes.
Ejemplos prácticos
- Se citan ejemplos como estadísticas sobre violencia de género, donde se pueden aplicar filtros por provincia.
- Herramientas como Power BI son populares para crear cuadros de mando debido a su posicionamiento en el mercado.
Tipos de analítica
Diferenciación entre tipos
- Es importante diferenciar entre analítica descriptiva, diagnóstica, predictiva y prescriptiva según el valor que aportan los datos.
Valoración del dato
- Cuanto más alto esté un dato en el eje vertical del gráfico presentado, mayor será su valor; esto contrasta con grandes volúmenes de datos menos significativos.
Aplicaciones prácticas
- Ejemplos incluyen probabilidades relacionadas con seguridad pública o predicciones sobre accidentes y pandemias.
¿Cómo se utiliza la analítica en los negocios?
Analítica Descriptiva y Diagnóstica
- La analítica descriptiva responde al "qué" de las ventas, mientras que la analítica diagnóstica aborda el "por qué" hemos bajado en ventas. Se profundiza en los datos para identificar problemas específicos.
- La analítica diagnóstica permite desagregar datos y detectar pérdidas en áreas específicas, como un Mercadona que ha estado generando pérdidas sin que nadie lo haya notado.
- La transición a la analítica predictiva implica el uso de machine learning para prever eventos futuros basándose en patrones históricos, como predecir sequías a partir de datos climáticos.
- Se establece una diferencia clara entre la analítica descriptiva (que describe lo ocurrido) y la predictiva (que anticipa lo que sucederá), requiriendo técnicas avanzadas de procesamiento.
- Ejemplos de aplicaciones incluyen modelos predictivos sobre salud o fenómenos naturales, donde se combinan conocimientos técnicos con experiencia empresarial para obtener resultados significativos.
Importancia de la Toma de Decisiones
- La combinación de científicos de datos con expertos del negocio es crucial para aplicar correctamente las herramientas analíticas y mejorar la comprensión del entorno empresarial.
- Las dos primeras etapas (analítica descriptiva y diagnóstica) son fundamentales para identificar problemas o tendencias que requieren atención, aunque su simplicidad puede subestimar su importancia.
- A pesar de ser conceptos básicos, estos enfoques no están universalmente implementados; hay un camino por recorrer hacia una gestión estratégica adecuada del dato.
- La capacidad predictiva ayuda a planificar decisiones estratégicas, como aumentar medidas de seguridad ante eventos relevantes basados en análisis previos.
- La toma de decisiones informadas es esencial; por ejemplo, decidir incrementar seguridad durante eventos climáticos importantes debido a patrones observados en ventas aéreas.
Analítica Prescriptiva
- La analítica prescriptiva guía a los usuarios sobre cómo actuar basándose en predicciones anteriores. Esto incluye recomendaciones automatizadas para robots o vehículos inteligentes.
- En el contexto automotriz, los vehículos inteligentes utilizan algoritmos complejos para tomar decisiones basadas en grandes volúmenes de datos recopilados continuamente.
- Un enfoque clásico implica integrar bases de datos empresariales mediante ETL hacia un data warehouse, facilitando así el acceso a herramientas como Power BI para análisis visuales.
Análisis de Data Lakes y Data Warehouses
Conceptos Básicos sobre Data Lakes y Data Warehouses
- Se discute la diferencia entre informes estáticos y dinámicos, enfatizando que los cuadros de mando pueden ser interactivos o no. La importancia de un data lake frente a un data warehouse se menciona en el contexto de fuentes de datos diversas.
- Se define la ingesta de datos como un proceso similar al ETL (Extracción, Transformación y Carga), destacando que "ingestar" es el término más adecuado para describir este proceso.
Funcionalidades del Data Lake
- El data lake permite extraer datos sectoriales y crear conjuntos de datos para analítica avanzada, además de transformar datos hacia un data warehouse. Esto refleja la complejidad organizativa en las áreas de negocio.
- Diferentes perfiles acceden a los datos: la alta dirección utiliza información depurada y agregada, mientras que analistas y científicos trabajan con datos en bruto para realizar análisis avanzados.
Perfiles de Usuario y su Interacción con Datos
- Los gestores de área no aplican algoritmos complejos; su habilidad radica en interpretar diagramas y detectar anomalías en los datos, lo cual es crucial para la toma de decisiones.
- Un gestor puede identificar irregularidades evidentes, como ingresos inusuales en ciertos grupos demográficos, lo que resalta la importancia del conocimiento contextual sobre los datos.
Cuadros de Mando: Conexiones con Data Lakes
- Se plantea si un cuadro de mando puede conectarse directamente a un data lake. La respuesta implica que el acceso requiere herramientas específicas debido a la naturaleza del data lake como concepto amplio.
- Para acceder a los elementos dentro del data lake, se necesita una herramienta adecuada; esto incluye virtualizadores que facilitan las vistas necesarias para aplicaciones como Power BI.
Virtualización y Estructuración de Datos
- La virtualización es esencial cuando se trabaja con un data lake; permite homogeneizar los datos antes de su uso en herramientas analíticas. Sin esta estructura, sería difícil generar cuadros de mando útiles.
- En contraste, si se utiliza un data warehouse sin virtualización intermedia, se puede acceder directamente a los datos. Esto simplifica el proceso pero limita algunas funcionalidades disponibles en entornos más complejos como los data lakes.
Reflexiones Finales sobre Data Lakes
- Se concluye que el concepto del data lake es complejo; aunque tiene potencial significativo, muchos implementaciones actuales son deficientes o no están optimizadas adecuadamente.
- A pesar del auge del término "data lake", hay una falta generalizada en implementaciones efectivas. Comparado con un data warehouse bien definido, el lago presenta desafíos significativos relacionados con su gestión estructural.
Conceptos Clave sobre Data Lakes y Big Data
Introducción a los Data Lakes
- Un data lake se puede construir sobre HDFS de Hadoop, permitiendo almacenar bases de datos completas que pueden ser preparadas por diferentes organismos. Esto representa un concepto avanzado y complejo en la gestión de datos.
Complejidad y Soluciones
- La solución debe ser vista como vasta y compleja; no es práctico conectar herramientas como Power BI directamente a un data lake sin una estructura adecuada.
- Se sugiere simplificar el enfoque al dividir el sistema en subsistemas o microservicios, facilitando así la comprensión y gestión del dato.
Estructura del Sistema Propuesto
- En un entorno con microservicios, se recomienda implementar un data warehouse junto con bases de datos relacionales o no relacionales para gestionar la ingesta de datos.
- Es importante contar con módulos para la ingesta tanto batch como streaming, adaptándose a las fuentes internas y externas según sea necesario.
Procesamiento y Virtualización
- El procesamiento debe incluir machine learning e inteligencia artificial, además de virtualización para el consumo efectivo del dato. También se menciona la importancia del gobierno del dato, incluyendo metadatos, seguridad y calidad.
Normativas y Ejemplos Prácticos
- Se hace referencia a la norma UNE 78:2023 sobre gobierno del dato. Este marco normativo es esencial para asegurar una correcta gestión en sistemas que manejan grandes volúmenes de información.
- En aplicaciones fuera del ámbito público, como IoT, se puede optar por omitir el gobierno del dato si se gestiona adecuadamente mediante ETL hacia un data warehouse.
Reflexiones Finales sobre Complejidad Educativa
- La complejidad del tema sugiere que podría desarrollarse un curso extenso; sin embargo, el objetivo es reducir esta complejidad a lo esencial para facilitar el aprendizaje práctico.
- Se busca mantener claridad conceptual en diagramas y presentaciones para transmitir efectivamente ideas al tribunal evaluador.
Diseño de Sistemas con Big Data
- Se propone un diseño básico que incluya big data junto con gobernanza adecuada dentro de sistemas administrativos.
- Las fuentes de datos pueden ser diversas (APIs), lo cual resalta la flexibilidad necesaria en la arquitectura propuesta para integrar múltiples orígenes de información.
¿Cómo virtualizar y consumir datos de manera efectiva?
Virtualización de Datos
- La virtualización de datos es esencial para simplificar el acceso a la información por parte de los consumidores, permitiendo su consumo a través de APIs.
- Se pueden exponer datos a plataformas como datos.gov.es y universidades, facilitando la descarga en formatos como CSV, XML o JSON, tanto agregados como desagregados.
- La seguridad es fundamental en todas las capas del proceso de consumo de datos, asegurando trazabilidad y autenticación.
Interoperabilidad y Gobernanza del Dato
- La interoperabilidad debe ser una prioridad en todos los niveles: desde el datalake hasta la virtualización y el consumo.
- El concepto de gobernanza del dato es crucial; se menciona la norma 78/2023 que establece directrices sobre cómo las administraciones públicas deben manejar los datos.
Herramientas y Plataformas
- Apache Hadoop y Cloudera son herramientas clave en la infraestructura para gestionar grandes volúmenes de datos. Cloudera integra diversas funcionalidades necesarias para el manejo eficiente de estos sistemas.
- La plataforma del dato AGE está alineada con medidas del plan de digitalización que promueven un intercambio transparente de datos entre administraciones públicas.
Estrategias Digitales
- Se discuten varios planes estratégicos relacionados con la digitalización, incluyendo el PRTR (Plan de Recuperación, Transformación y Resiliencia), que financia iniciativas tecnológicas hasta 2027.
- El plan actual busca facilitar el uso compartido y transparente de datos entre organismos públicos mediante una arquitectura adecuada.
Implementación Práctica
- La plataforma del dato AGE se implementa en Nubesara, ofreciendo recursos significativos para gestionar tanto datos estructurados como no estructurados.
- Se prevé que los datalakes permitirán federar información entre diferentes ministerios, lo cual plantea desafíos logísticos pero también oportunidades para mejorar la gestión pública.
¿Cómo mejorar la gestión de datos en organismos públicos?
Importancia del gobierno de datos
- Se destaca la necesidad de una gestión centralizada y gobernada de los datos, enfatizando que el verdadero desafío es el gobierno de estos datos mediante políticas y procedimientos relacionados con la seguridad y calidad.
- Se mencionan normas específicas como la 1782023 para gestión de datos, la 79 para seguridad y la 80 para calidad, subrayando su relevancia en el contexto actual.
Plataforma del dato
- La plataforma del dato se presenta como un servicio común que permite a los organismos públicos acceder a información de manera ágil, autocontenida y lista para explotación y visualización.
- Se resalta que esta plataforma optimiza la implementación de capacidades del almacén de datos corporativo, siendo útil para todos los organismos tras una única instalación.
Beneficios económicos y operativos
- La utilización compartida de esta plataforma puede resultar en ahorros significativos, especialmente para entidades más pequeñas como protección civil, al reducir costos asociados a perfiles administrativos.
- Al adquirir un stack tecnológico avanzado, se pueden aprovechar sinergias tanto tecnológicas como económicas entre diferentes organismos, facilitando el intercambio de recursos e información.
Desafíos en el gobierno del dato
- El gobierno del dato permite establecer políticas personalizadas por cada organismo; sin embargo, esto plantea problemas relacionados con los metadatos debido a diferencias terminológicas (ej. "localidad" vs "destino").
- Es crucial evitar que las oficinas del dato funcionen como silos independientes; se necesita un esfuerzo organizativo fuerte para alcanzar consensos sobre vocabularios controlados entre todos los organismos involucrados.
Interoperabilidad semántica
- Se menciona que el primer paso hacia una mejor gestión no es tecnológico sino organizativo; las oficinas del dato deben ser creadas en cada organismo local para facilitar este proceso.
- La evolución del esquema nacional de interoperabilidad es esencial; se propone crear un consejo superior dedicado a la interoperabilidad semántica a nivel nacional.
Herramientas disponibles
- Las herramientas actuales ofrecen licencias gratuitas y capacidad ilimitada de almacenamiento y procesamiento, lo cual representa una gran ventaja frente a limitaciones previas en servidores locales.
- A pesar de las ventajas tecnológicas disponibles hoy en día, aún persisten desafíos organizativos que deben ser abordados antes de lograr una política centralizada efectiva.
¿Qué herramientas utiliza la ESGAT para el manejo de datos?
Herramientas adquiridas por la ESGAT
- La ESGAT ha adquirido varias herramientas de IBM, incluyendo IBM Cloud Pack for Data, Data Stage, Cognos Analytics y Watson Knowledge Catalog, que ahora se llama Watson Knowledge Catalog.
- Es importante conocer estas herramientas para el test, ya que son utilizadas por la SGAT en sus procesos.
Tecnologías y Procesos de Consumo de Datos
- La ESGAT utiliza tecnologías como Apache Hadoop y DBM para el consumo de datos. Se destaca el uso de IBM Cognos Analytics para analítica descriptiva.
- Para las APIs, se menciona Apache Nox como una opción viable dentro del apartado tecnológico.
Virtualización y Almacenamiento
- La virtualización de datos es crucial; se utiliza IBM Infosphere Data Stage como principal herramienta. Su competidor es Denodo.
- En almacenamiento, se mencionan soluciones como Lake House, HBase y HDFS. También se hace referencia a Solr como motor de búsqueda.
Procesamiento y Analítica Avanzada
- El procesamiento se realiza con Spark y Spark Streaming dentro del concepto de Lake House, que integra almacenamiento y bases de datos operacionales.
- Se discute la importancia de una capa transversal para gobierno y seguridad utilizando herramientas como Apache Ranger.
Ingesta y Participación Ciudadana
- La ingesta puede ser tanto batch (con Scoop o Data Stage) como streaming (con Kafka o Apache NiFi). Esto permite un feedback rápido sobre políticas públicas.
- Se propone utilizar ingesta streaming desde redes sociales para obtener opiniones ciudadanas sobre temas relevantes.
Capacidades Ofrecidas a los Organismos
- La plataforma del dato AGE ofrece diversas licencias a organismos públicos. Aunque tienen más capacidades disponibles, solo algunas son ofrecidas a los organismos.
- Para la ingesta se sugiere usar Apache NiFi; para almacenamiento HDFS; e Impala para data warehouse.
Seguridad y Gobernanza en Datos
- Las herramientas ofrecidas incluyen Apache Ranger para seguridad, así como KMS (Key Management Service).
- Para virtualización y business intelligence se menciona nuevamente IBM Cloud Pack for Data junto con el catálogo Watson Nobl Catalog.
¿Cómo se gestiona el linaje de datos en la plataforma del dato?
Introducción al linaje de datos
- Gisela explica que el linaje de datos permite rastrear la aparición de variables, como cifras de negocio, en diferentes informes y cuadros de mando. Esto se visualiza a través de gráficos que muestran todas las ubicaciones donde aparece una variable específica.
Herramientas para la virtualización y análisis
- Se menciona IBM Watson Query como una herramienta clave para la virtualización y análisis de datos. La discusión gira en torno a cómo estas herramientas ayudan a concretar el uso del linaje en los sistemas.
Implementación en sistemas
- El presentador describe un enfoque para integrar la plataforma del dato dentro del sistema, mencionando que se pueden dibujar capas conceptuales para su implementación.
Arquitectura lógica y decisiones sobre herramientas
- Se discute cómo implementar soluciones utilizando herramientas específicas como IBM Cognos Analytics, Spark para procesamiento, y Apache Nifi para ingesta. También se menciona el uso del Watson Catalog para gobernanza de datos.
Almacenamiento y gestión local
- El presentador plantea opciones sobre dónde almacenar los datos, ya sea en un Oracle Autonomous o en tecnología Microsoft. Se enfatiza la importancia de mantener control sobre los propios datos mientras se utilizan capacidades externas para su gestión.
¿Cuáles son los próximos pasos en inteligencia artificial y big data?
Enfoque futuro
- Se anticipa una próxima sesión centrada en inteligencia artificial y procesamiento, así como el gobierno del dato y normas relacionadas con la economía del dato.
Supuestos prácticos
- Se planea trabajar con supuestos prácticos relacionados con arquitecturas lógicas, comenzando por un caso específico (AES), que involucra procedimientos administrativos relacionados con ayudas.
Importancia de simplificar conceptos
- El presentador destaca el esfuerzo realizado para simplificar documentos complejos que faciliten las clases cortas. Estos documentos permiten a los estudiantes captar rápidamente conceptos esenciales sin perder profundidad.