Sesión 2 Análisis de Datos

Name: Sesión 2 Análisis de Datos
Uploaded: 2026-01-10T01:51:51.000Z
Duration: 2 h 10 min 9 s
Description: Sigue la sesión 2 del propedéutico de Análisis de Datos. Link del pase de lista: https://www.epc.gob.mx/cpfia-asistencia-analisis-de-datos/ #TecNM #INFOTEC

Introducción al Análisis de Datos

Presentación y Normas del Curso

Humberto Marín Vega da la bienvenida a los participantes y presenta el curso sobre análisis de datos.

Se recuerda que las clases son síncronas y se debe registrar asistencia mediante un enlace o código QR, en horario de 9:00 a 21:00 horas.

Si no se puede asistir, se debe dejar el nombre completo en los comentarios de la grabación para registrar la asistencia.

No hay costo por participar en el curso propedéutico; los usuarios tienen dos intentos para realizar la evaluación final programada para el 17 de enero.

Introducción al Módulo Uno

Se inicia con el módulo uno, que es una introducción al análisis de datos, estableciendo las bases necesarias para trabajar con datos y modelos.

El enfoque del día es sobre metodologías para el análisis de datos, buscando que los participantes comprendan su utilidad y aplicación.

Metodologías del Análisis de Datos

Definición y Propósito

Las metodologías son conjuntos de pasos, técnicas y procesos que transforman datos en información útil para la toma de decisiones.

Aseguran que el análisis sea reproducible, permitiendo que otros puedan repetir el proceso y obtener resultados similares.

Enfoque Tradicional del Análisis

El enfoque tradicional sigue una secuencia clara: definición del problema, recolección de datos, limpieza/preparación, análisis exploratorio e interpretación/comunicación.

La limpieza y preparación son cruciales para eliminar ruidos en los datos antes del análisis.

Ventajas y Desventajas

Ventaja: fácil comprensión y uso común en investigaciones científicas.

Desventaja: poca flexibilidad ante cambios en problemas o grandes volúmenes de datos; no siempre es adecuado para proyectos modernos.

Modelos Metodológicos Específicos

Introducción a CRISP-DM

Se introduce CRISP-DM (Cross Industry Standard Process for Data Mining), un estándar utilizado ampliamente en proyectos avanzados de análisis.

Esta metodología es aplicable a diversas áreas como educación, salud, negocios y marketing.

Fases del CRISP-DM

La primera fase consiste en comprender el negocio antes de tocar cualquier dato; se define qué problema resolver.

¿Cómo abordar la comprensión del negocio y los datos?

Fases de comprensión del negocio

La primera fase en la comprensión del negocio es identificar el problema a resolver, así como los datos que se van a manipular. Es crucial convertirse en expertos del negocio para entender mejor la información y las decisiones que se tomarán.

La segunda fase está relacionada con la comprensión de los datos, donde se revisa qué datos existen, su origen y confiabilidad. Es importante detectar cualquier dato anómalo o nulo que pueda afectar el modelo.

La tercera fase implica la preparación de los datos, que incluye limpieza (eliminación de nulos y duplicados), selección de variables y transformación a un formato adecuado para el análisis.

El modelado es la cuarta fase, donde se aplican técnicas estadísticas o algoritmos para facilitar la toma de decisiones. Esta etapa es fundamental para validar si el modelo cumple con los objetivos iniciales.

Finalmente, el despliegue consiste en implementar el modelo en un entorno real para tomar decisiones basadas en los resultados obtenidos.

Ventajas del modelo Cris y Dien

Una ventaja clave del modelo Cris y Dien es su naturaleza iterativa y flexible; permite regresar a fases anteriores si algo no funciona correctamente durante el proceso.

Por ejemplo, si durante la etapa de modelado se identifica un problema con los datos, se puede volver a la preparación de estos hasta lograr una calidad adecuada antes de continuar.

Este enfoque flexible evita un proceso rígido y permite ajustes continuos hasta alcanzar un estado óptimo en el desarrollo del modelo.

Otra ventaja significativa es su aplicabilidad en diversos sectores (salud, mercados financieros, etc.), lo que lo convierte en una metodología versátil para proyectos reales.

Debido a estas características, Cris es considerada una metodología completa y realista para abordar problemas complejos dentro de diferentes industrias.

¿Qué es KDD y cómo se diferencia?

Etapas del proceso KDD

KDD significa "Knowledge Discovery in Databases" (Descubrimiento de Conocimiento en Bases de Datos). Se centra principalmente en descubrir conocimiento útil dentro de grandes volúmenes de datos mediante varias etapas definidas.

Las etapas incluyen: selección de datos (identificación de información relevante), preprocesamiento (limpieza y corrección), transformación (preparación para análisis), minería de datos e interpretación/evaluación final.

En el preprocesamiento se eliminan errores como valores nulos o incompletos. Esto asegura que solo se utilicen datos limpios durante todo el proceso analítico.

La minería de datos busca patrones y relaciones significativas dentro del conjunto limpio. Esta etapa central permite interpretar resultados relevantes que guiarán las decisiones futuras.

Ventajas y desventajas del KDD

Una gran ventaja del KDD es su eficacia al trabajar con grandes repositorios de datos; resulta ideal cuando hay volúmenes masivos por analizar debido a su enfoque sistemático sobre generación de conocimiento más allá simplemente obtener modelos predictivos.

Sin embargo, una desventaja notable es que no enfatiza tanto el contexto empresarial como lo hace Cris; esto puede limitar su efectividad al no considerar completamente las necesidades específicas del negocio involucrado.

Modelo SENMA y Metodologías de Análisis de Datos

Introducción al Modelo SENMA

El modelo SENMA, que significa Sample Explore Modify Model Access, es una metodología orientada al modelado predictivo desarrollada por SAS Perl.

La primera etapa, "sample", implica la extracción de una muestra representativa de los datos para su análisis posterior.

Etapas del Modelo SENMA

En la segunda etapa, "explore", se analizan estadísticamente los datos para entender su comportamiento y características.

La tercera etapa, "modify", consiste en limpiar y transformar los datos para mejorar la precisión en el modelado.

En la cuarta etapa, "model", se aplican modelos predictivos; finalmente, en "access" se evalúa la calidad de los resultados obtenidos.

Ventajas y Limitaciones del Modelo SEMA

Las ventajas del modelo SEMA incluyen su eficiencia en la construcción de modelos y su uso en entornos que requieren rapidez en el análisis.

Sin embargo, una limitación es que no se centra tanto en comprender el problema del negocio como lo hace el enfoque tradicional.

Comparación con Otras Metodologías

Se mencionan otras metodologías como el análisis tradicional (seis fases), Cristian (seis fases enfocadas más hacia analítica), y KDD (Knowledge Discovery in Databases).

Cada metodología tiene sus propias etapas: desde definición del problema hasta interpretación y evaluación.

Metodologías Ágiles en Análisis de Datos

Importancia de las Metodologías Ágiles

Las metodologías ágiles son importantes porque permiten trabajar de forma flexible y adaptarse rápidamente a cambios durante proyectos actuales.

Ejemplos de Metodologías Ágiles

Ejemplos incluyen Scrum (ciclos cortos llamados sprints), Kanban (gestión visual del flujo de trabajo), y Link Analytics (definición rápida de métricas clave).

Ventajas Clave

Las principales ventajas son flexibilidad, adaptación rápida al cambio y un enfoque continuo en resultados. Son ideales para proyectos modernos que requieren análisis continuo.

Ciclo de Vida del Machine Learning - MLOps

Introducción a MLOps

El ciclo de vida del machine learning o MLOps incluye prácticas necesarias para asegurar que un modelo funcione correctamente al ser implementado en producción.

Etapas Clave del Ciclo MLOps

Las etapas incluyen: definir el problema, recolección e preparación de datos, entendimiento del modelo, validación, despliegue y monitoreo.

Definición del Problema

Es crucial definir qué queremos predecir, cuál es el propósito del modelo y quién será el usuario final. Esta claridad guía todo el proceso posterior.

Recolección y Preparación de Datos

En esta fase se obtienen los datos necesarios; estos deben limpiarse y transformarse adecuadamente antes de entrenar el modelo.

Ciclo de Vida del Machine Learning

Entrenamiento y Validación del Modelo

La etapa de entrenamiento utiliza algoritmos de machine learning para aprender patrones a partir de los datos identificados.

La validación se realiza para comprobar la efectividad del modelo y su capacidad de generalización.

Despliegue y Mantenimiento

El despliegue implica implementar el modelo en un sistema real, como una aplicación o plataforma.

El monitoreo constante es crucial, ya que los datos cambian con el tiempo, lo que puede afectar la precisión del modelo.

Ventajas del Ciclo de Vida

Este ciclo está adaptado a entornos modernos donde los modelos deben funcionar continuamente y permite automatizar procesos como el reentrenamiento.

Facilita la escalabilidad, permitiendo el uso eficiente con grandes volúmenes de información sin perder rendimiento.

Metodologías para el Análisis de Datos

Comparativa de Metodologías

Se presenta una tabla comparativa que organiza las metodologías vistas hasta ahora, destacando sus diferencias clave.

Enfoque Tradicional

El enfoque tradicional es lineal, avanzando paso a paso sin regresar a etapas anteriores; ideal para investigaciones académicas con problemas bien definidos.

Enfoques Alternativos

Las metodologías ágiles son flexibles y colaborativas, útiles en proyectos donde los requisitos cambian constantemente.

KDD y SENMA

KDD se centra en descubrir patrones en grandes volúmenes de datos pero no enfatiza la implementación del modelo.

SENMA se enfoca en modelos estadísticos predictivos, siendo eficiente pero menos profundo en la comprensión del problema empresarial.

Ciclo de Vida del Machine Learning

Este ciclo se orienta hacia la producción continua y mantenimiento efectivo del modelo, asegurando su funcionamiento a largo plazo.

Metodologías para el Análisis de Datos

Importancia de la Metodología

La elección de una metodología depende del problema a resolver, los datos disponibles y la importancia de implementar la solución en producción.

Antes de seleccionar una metodología, es crucial preguntarse: ¿qué problema quiero resolver?, ¿qué tipo de datos tengo? y ¿qué tan importante es poner la solución en producción?

Caso Práctico: Abandono Estudiantil

Una universidad busca identificar factores que influyen en el abandono estudiantil antes del segundo año, considerando datos como edad, promedio y asistencia.

El análisis no solo implica datos académicos, sino también aspectos sociales que afectan el fenómeno del abandono.

Objetivos Universitarios

La universidad tiene varios objetivos claros: comprender el problema, analizar patrones en los datos y construir un modelo predictivo para anticipar riesgos.

Se busca implementar este modelo en producción para permitir intervenciones tempranas y evitar el abandono estudiantil.

Selección de Metodología

Un enfoque tradicional no sería suficiente ya que no contempla el despliegue ni la interacción continua con los datos.

La metodología CRISP-DM se considera más adecuada porque permite entender el problema desde un punto institucional e integrar factores sociales y académicos.

Ventajas de CRISP-DM

Esta metodología facilita la preparación y análisis de datos, construcción y evaluación de modelos, así como su despliegue en tiempo real.

Permite mejorar continuamente según las variaciones en los datos a lo largo del tiempo.

Registro de Asistencia

Importancia del Registro

Se recuerda a los participantes registrar su asistencia mediante un código QR para llevar control adecuado durante las sesiones.

Tecnologías Actuales para el Análisis de Datos

Introducción a Tecnologías

En esta sección se abordarán las herramientas actuales utilizadas para el análisis de datos, incluyendo lenguajes y plataformas relevantes.

Definición General

Las tecnologías incluyen herramientas que permiten recolectar, almacenar, procesar, analizar y visualizar información. Es fundamental combinar diversas tecnologías dentro del mismo proyecto.

Lenguajes de Programación

Se comenzará con Python como uno de los lenguajes más populares por su facilidad y amplia disponibilidad de bibliotecas útiles para ciencia de datos.

Lenguajes de Programación y Bases de Datos en Análisis de Datos

Herramientas y Bibliotecas Clave en Python

Se mencionan bibliotecas esenciales como Pandas para análisis y manipulación de datos, NumPy para cálculos numéricos, y herramientas como Matplotlib y Seaborn para visualización.

El uso de TensorFlow y PyTorch se destaca para el análisis en machine learning, permitiendo aplicar modelos precargados.

Comparativa entre Python y R

Python es versátil, utilizado tanto en análisis exploratorio como en sistemas de producción.

R es especializado en estadística, con bibliotecas potentes como Tidyverse, que facilita la manipulación de datos, y otras herramientas para visualización e interactividad.

SQL: Lenguaje Fundamental para Manipulación de Datos

SQL se clasifica como un lenguaje esencial aunque no es un lenguaje de programación; se utiliza principalmente para consultar y manipular datos almacenados.

La mayoría de los proyectos analíticos inician con SQL debido a que los datos suelen estar almacenados en bases relacionales.

Bases de Datos Relacionales

Ejemplos incluyen MySQL, PostgreSQL, SQL Server y Oracle; son ideales cuando los datos están bien estructurados.

Las bases relacionales permiten relacionar información mediante claves (ej. número de estudiante), facilitando consultas complejas.

Introducción a Bases de Datos NoSQL

Las bases NoSQL surgieron por nuevas necesidades; no utilizan esquemas rígidos ni tablas tradicionales.

Son útiles para almacenar grandes volúmenes de datos no estructurados o cambiantes, como expedientes médicos.

Tipos Comunes de Bases NoSQL

MongoDB almacena información en documentos tipo JSON; ideal para estructuras variables.

Cassandra maneja grandes volúmenes distribuidos; útil en sistemas generadores constantes de datos.

Las bases clave/valor como Redis son rápidas y utilizadas principalmente para cacheo temporal.

Introducción a Big Data y Herramientas de Business Intelligence

Conceptos Clave sobre Big Data

Las plataformas de Big Data permiten procesar información distribuida cuando los datos son demasiado grandes para una sola computadora, facilitando el manejo de grandes volúmenes de datos.

Ejemplos de tecnologías incluyen HDFS para almacenamiento, Apache Spark para análisis rápido en memoria, y herramientas como Hive para consultas SQL en grandes volúmenes.

Estas tecnologías son especialmente útiles en entornos empresariales donde se requiere manejar y analizar grandes cantidades de información.

Herramientas de Business Intelligence (BI)

Power BI

Power BI es una herramienta desarrollada por Microsoft que permite la visualización y creación de reportes interactivos conectándose a diversas fuentes de datos como Excel o bases en la nube.

Permite a los usuarios explorar información sin necesidad de saber programar, facilitando la toma de decisiones mediante dashboards visuales que integran múltiples indicadores.

Tableau

Tableau se destaca por su capacidad visual avanzada, permitiendo crear gráficos complejos mediante un sistema intuitivo de arrastrar y soltar elementos.

Es ideal para descubrir patrones o relaciones dentro de los datos, siendo muy utilizada por analistas y científicos que requieren exploración visual dinámica.

Calipens

Calipens utiliza un modelo asociativo único que muestra automáticamente las relaciones entre los datos seleccionados, facilitando el análisis exploratorio sin seguir rutas predefinidas.

Esta herramienta es útil para identificar relaciones ocultas entre datos y realizar análisis dinámicos.

Google Data Studio (Looker Studio)

Looker Studio es una herramienta gratuita basada en la nube que se integra fácilmente con productos Google, permitiendo crear reportes rápidos y dashboards compartibles en tiempo real.

Su uso práctico incluye compartir indicadores actualizados con directivos sin necesidad del envío manual de archivos.

Plataformas en la Nube para Análisis de Datos

Ventajas del Uso en la Nube

Las plataformas en la nube permiten analizar datos sin necesidad de infraestructura propia, ejecutando procesos desde centros remotos accesibles por internet.

Esto facilita trabajar con grandes volúmenes e incrementar recursos según sea necesario; si hay más datos hoy, se pueden usar más recursos mañana.

Proveedores Principales

Los principales proveedores incluyen Amazon Web Services (AWS), Microsoft Azure y Google Cloud. AWS ofrece servicios como S3 para almacenamiento; Azure proporciona herramientas como Machine Learning; mientras que Google Cloud también tiene soluciones robustas para análisis.

Herramientas de Análisis y Machine Learning en Google Club

Integración de Plataformas

Dentro de Google Club, se utilizan varias plataformas como Bit Query para análisis, Locker para visualización y Verte para modelos de machine learning. Estas herramientas se integran en un solo entorno que abarca almacenamiento, análisis y visualización.

Herramientas Avanzadas de Machine Learning

Se presentan herramientas avanzadas de machine learning e inteligencia artificial que permiten al sistema aprender automáticamente a partir de los datos, realizando predicciones o clasificaciones.

Existen herramientas diseñadas tanto para usuarios con conocimientos en programación como para aquellos técnicos sin experiencia avanzada. Ejemplos incluyen kits para modelos clásicos (regresión y clasificación) y otras como Sensor Flow y Bitor para deep learning.

Procesamiento ETL y ELT

Las herramientas ETL (Extraer, Transformar, Cargar) son esenciales aunque a menudo poco visibles. Se utilizan para mover datos desde diversas fuentes hacia sistemas analíticos.

En el proceso ETL, primero se extraen los datos, luego se transforman (limpieza y corrección), y finalmente se cargan en un repositorio final. En ELT el orden es diferente: primero se cargan los datos antes de transformarlos.

Técnicas de Análisis de Datos

El análisis de datos no depende únicamente de una herramienta; requiere un conjunto tecnológico que trabaje conjuntamente. Cada tecnología tiene una función específica dentro del proceso.

Es crucial entender la utilidad específica de cada herramienta en lugar de intentar dominar todas ellas. La combinación adecuada entre metodología, datos y tecnología es clave para proyectos exitosos en análisis de datos.

Conclusiones Finales

Se establece la importancia del uso práctico adecuado de estas herramientas en futuras sesiones. Se agradece a los participantes por su asistencia e interés en el tema tratado durante la clase.