Sesión 2 Análisis de Datos
Introducción al Análisis de Datos
Presentación y Normas del Curso
- Humberto Marín Vega da la bienvenida a los participantes y presenta el curso sobre análisis de datos.
- Se recuerda que las clases son síncronas y se debe registrar asistencia mediante un enlace o código QR, en horario de 9:00 a 21:00 horas.
- Si no se puede asistir, se debe dejar el nombre completo en los comentarios de la grabación para registrar la asistencia.
- No hay costo por participar en el curso propedéutico; los usuarios tienen dos intentos para realizar la evaluación final programada para el 17 de enero.
Introducción al Módulo Uno
- Se inicia con el módulo uno, que es una introducción al análisis de datos, estableciendo las bases necesarias para trabajar con datos y modelos.
- El enfoque del día es sobre metodologías para el análisis de datos, buscando que los participantes comprendan su utilidad y aplicación.
Metodologías del Análisis de Datos
Definición y Propósito
- Las metodologías son conjuntos de pasos, técnicas y procesos que transforman datos en información útil para la toma de decisiones.
- Aseguran que el análisis sea reproducible, permitiendo que otros puedan repetir el proceso y obtener resultados similares.
Enfoque Tradicional del Análisis
- El enfoque tradicional sigue una secuencia clara: definición del problema, recolección de datos, limpieza/preparación, análisis exploratorio e interpretación/comunicación.
- La limpieza y preparación son cruciales para eliminar ruidos en los datos antes del análisis.
Ventajas y Desventajas
- Ventaja: fácil comprensión y uso común en investigaciones científicas.
- Desventaja: poca flexibilidad ante cambios en problemas o grandes volúmenes de datos; no siempre es adecuado para proyectos modernos.
Modelos Metodológicos Específicos
Introducción a CRISP-DM
- Se introduce CRISP-DM (Cross Industry Standard Process for Data Mining), un estándar utilizado ampliamente en proyectos avanzados de análisis.
- Esta metodología es aplicable a diversas áreas como educación, salud, negocios y marketing.
Fases del CRISP-DM
- La primera fase consiste en comprender el negocio antes de tocar cualquier dato; se define qué problema resolver.
¿Cómo abordar la comprensión del negocio y los datos?
Fases de comprensión del negocio
- La primera fase en la comprensión del negocio es identificar el problema a resolver, así como los datos que se van a manipular. Es crucial convertirse en expertos del negocio para entender mejor la información y las decisiones que se tomarán.
- La segunda fase está relacionada con la comprensión de los datos, donde se revisa qué datos existen, su origen y confiabilidad. Es importante detectar cualquier dato anómalo o nulo que pueda afectar el modelo.
- La tercera fase implica la preparación de los datos, que incluye limpieza (eliminación de nulos y duplicados), selección de variables y transformación a un formato adecuado para el análisis.
- El modelado es la cuarta fase, donde se aplican técnicas estadísticas o algoritmos para facilitar la toma de decisiones. Esta etapa es fundamental para validar si el modelo cumple con los objetivos iniciales.
- Finalmente, el despliegue consiste en implementar el modelo en un entorno real para tomar decisiones basadas en los resultados obtenidos.
Ventajas del modelo Cris y Dien
- Una ventaja clave del modelo Cris y Dien es su naturaleza iterativa y flexible; permite regresar a fases anteriores si algo no funciona correctamente durante el proceso.
- Por ejemplo, si durante la etapa de modelado se identifica un problema con los datos, se puede volver a la preparación de estos hasta lograr una calidad adecuada antes de continuar.
- Este enfoque flexible evita un proceso rígido y permite ajustes continuos hasta alcanzar un estado óptimo en el desarrollo del modelo.
- Otra ventaja significativa es su aplicabilidad en diversos sectores (salud, mercados financieros, etc.), lo que lo convierte en una metodología versátil para proyectos reales.
- Debido a estas características, Cris es considerada una metodología completa y realista para abordar problemas complejos dentro de diferentes industrias.
¿Qué es KDD y cómo se diferencia?
Etapas del proceso KDD
- KDD significa "Knowledge Discovery in Databases" (Descubrimiento de Conocimiento en Bases de Datos). Se centra principalmente en descubrir conocimiento útil dentro de grandes volúmenes de datos mediante varias etapas definidas.
- Las etapas incluyen: selección de datos (identificación de información relevante), preprocesamiento (limpieza y corrección), transformación (preparación para análisis), minería de datos e interpretación/evaluación final.
- En el preprocesamiento se eliminan errores como valores nulos o incompletos. Esto asegura que solo se utilicen datos limpios durante todo el proceso analítico.
- La minería de datos busca patrones y relaciones significativas dentro del conjunto limpio. Esta etapa central permite interpretar resultados relevantes que guiarán las decisiones futuras.
Ventajas y desventajas del KDD
- Una gran ventaja del KDD es su eficacia al trabajar con grandes repositorios de datos; resulta ideal cuando hay volúmenes masivos por analizar debido a su enfoque sistemático sobre generación de conocimiento más allá simplemente obtener modelos predictivos.
- Sin embargo, una desventaja notable es que no enfatiza tanto el contexto empresarial como lo hace Cris; esto puede limitar su efectividad al no considerar completamente las necesidades específicas del negocio involucrado.
Modelo SENMA y Metodologías de Análisis de Datos
Introducción al Modelo SENMA
- El modelo SENMA, que significa Sample Explore Modify Model Access, es una metodología orientada al modelado predictivo desarrollada por SAS Perl.
- La primera etapa, "sample", implica la extracción de una muestra representativa de los datos para su análisis posterior.
Etapas del Modelo SENMA
- En la segunda etapa, "explore", se analizan estadísticamente los datos para entender su comportamiento y características.
- La tercera etapa, "modify", consiste en limpiar y transformar los datos para mejorar la precisión en el modelado.
- En la cuarta etapa, "model", se aplican modelos predictivos; finalmente, en "access" se evalúa la calidad de los resultados obtenidos.
Ventajas y Limitaciones del Modelo SEMA
- Las ventajas del modelo SEMA incluyen su eficiencia en la construcción de modelos y su uso en entornos que requieren rapidez en el análisis.
- Sin embargo, una limitación es que no se centra tanto en comprender el problema del negocio como lo hace el enfoque tradicional.
Comparación con Otras Metodologías
- Se mencionan otras metodologías como el análisis tradicional (seis fases), Cristian (seis fases enfocadas más hacia analítica), y KDD (Knowledge Discovery in Databases).
- Cada metodología tiene sus propias etapas: desde definición del problema hasta interpretación y evaluación.
Metodologías Ágiles en Análisis de Datos
Importancia de las Metodologías Ágiles
- Las metodologías ágiles son importantes porque permiten trabajar de forma flexible y adaptarse rápidamente a cambios durante proyectos actuales.
Ejemplos de Metodologías Ágiles
- Ejemplos incluyen Scrum (ciclos cortos llamados sprints), Kanban (gestión visual del flujo de trabajo), y Link Analytics (definición rápida de métricas clave).
Ventajas Clave
- Las principales ventajas son flexibilidad, adaptación rápida al cambio y un enfoque continuo en resultados. Son ideales para proyectos modernos que requieren análisis continuo.
Ciclo de Vida del Machine Learning - MLOps
Introducción a MLOps
- El ciclo de vida del machine learning o MLOps incluye prácticas necesarias para asegurar que un modelo funcione correctamente al ser implementado en producción.
Etapas Clave del Ciclo MLOps
- Las etapas incluyen: definir el problema, recolección e preparación de datos, entendimiento del modelo, validación, despliegue y monitoreo.
Definición del Problema
- Es crucial definir qué queremos predecir, cuál es el propósito del modelo y quién será el usuario final. Esta claridad guía todo el proceso posterior.
Recolección y Preparación de Datos
- En esta fase se obtienen los datos necesarios; estos deben limpiarse y transformarse adecuadamente antes de entrenar el modelo.
Ciclo de Vida del Machine Learning
Entrenamiento y Validación del Modelo
- La etapa de entrenamiento utiliza algoritmos de machine learning para aprender patrones a partir de los datos identificados.
- La validación se realiza para comprobar la efectividad del modelo y su capacidad de generalización.
Despliegue y Mantenimiento
- El despliegue implica implementar el modelo en un sistema real, como una aplicación o plataforma.
- El monitoreo constante es crucial, ya que los datos cambian con el tiempo, lo que puede afectar la precisión del modelo.
Ventajas del Ciclo de Vida
- Este ciclo está adaptado a entornos modernos donde los modelos deben funcionar continuamente y permite automatizar procesos como el reentrenamiento.
- Facilita la escalabilidad, permitiendo el uso eficiente con grandes volúmenes de información sin perder rendimiento.
Metodologías para el Análisis de Datos
Comparativa de Metodologías
- Se presenta una tabla comparativa que organiza las metodologías vistas hasta ahora, destacando sus diferencias clave.
Enfoque Tradicional
- El enfoque tradicional es lineal, avanzando paso a paso sin regresar a etapas anteriores; ideal para investigaciones académicas con problemas bien definidos.
Enfoques Alternativos
- Las metodologías ágiles son flexibles y colaborativas, útiles en proyectos donde los requisitos cambian constantemente.
KDD y SENMA
- KDD se centra en descubrir patrones en grandes volúmenes de datos pero no enfatiza la implementación del modelo.
- SENMA se enfoca en modelos estadísticos predictivos, siendo eficiente pero menos profundo en la comprensión del problema empresarial.
Ciclo de Vida del Machine Learning
- Este ciclo se orienta hacia la producción continua y mantenimiento efectivo del modelo, asegurando su funcionamiento a largo plazo.
Metodologías para el Análisis de Datos
Importancia de la Metodología
- La elección de una metodología depende del problema a resolver, los datos disponibles y la importancia de implementar la solución en producción.
- Antes de seleccionar una metodología, es crucial preguntarse: ¿qué problema quiero resolver?, ¿qué tipo de datos tengo? y ¿qué tan importante es poner la solución en producción?
Caso Práctico: Abandono Estudiantil
- Una universidad busca identificar factores que influyen en el abandono estudiantil antes del segundo año, considerando datos como edad, promedio y asistencia.
- El análisis no solo implica datos académicos, sino también aspectos sociales que afectan el fenómeno del abandono.
Objetivos Universitarios
- La universidad tiene varios objetivos claros: comprender el problema, analizar patrones en los datos y construir un modelo predictivo para anticipar riesgos.
- Se busca implementar este modelo en producción para permitir intervenciones tempranas y evitar el abandono estudiantil.
Selección de Metodología
- Un enfoque tradicional no sería suficiente ya que no contempla el despliegue ni la interacción continua con los datos.
- La metodología CRISP-DM se considera más adecuada porque permite entender el problema desde un punto institucional e integrar factores sociales y académicos.
Ventajas de CRISP-DM
- Esta metodología facilita la preparación y análisis de datos, construcción y evaluación de modelos, así como su despliegue en tiempo real.
- Permite mejorar continuamente según las variaciones en los datos a lo largo del tiempo.
Registro de Asistencia
Importancia del Registro
- Se recuerda a los participantes registrar su asistencia mediante un código QR para llevar control adecuado durante las sesiones.
Tecnologías Actuales para el Análisis de Datos
Introducción a Tecnologías
- En esta sección se abordarán las herramientas actuales utilizadas para el análisis de datos, incluyendo lenguajes y plataformas relevantes.
Definición General
- Las tecnologías incluyen herramientas que permiten recolectar, almacenar, procesar, analizar y visualizar información. Es fundamental combinar diversas tecnologías dentro del mismo proyecto.
Lenguajes de Programación
- Se comenzará con Python como uno de los lenguajes más populares por su facilidad y amplia disponibilidad de bibliotecas útiles para ciencia de datos.
Lenguajes de Programación y Bases de Datos en Análisis de Datos
Herramientas y Bibliotecas Clave en Python
- Se mencionan bibliotecas esenciales como Pandas para análisis y manipulación de datos, NumPy para cálculos numéricos, y herramientas como Matplotlib y Seaborn para visualización.
- El uso de TensorFlow y PyTorch se destaca para el análisis en machine learning, permitiendo aplicar modelos precargados.
Comparativa entre Python y R
- Python es versátil, utilizado tanto en análisis exploratorio como en sistemas de producción.
- R es especializado en estadística, con bibliotecas potentes como Tidyverse, que facilita la manipulación de datos, y otras herramientas para visualización e interactividad.
SQL: Lenguaje Fundamental para Manipulación de Datos
- SQL se clasifica como un lenguaje esencial aunque no es un lenguaje de programación; se utiliza principalmente para consultar y manipular datos almacenados.
- La mayoría de los proyectos analíticos inician con SQL debido a que los datos suelen estar almacenados en bases relacionales.
Bases de Datos Relacionales
- Ejemplos incluyen MySQL, PostgreSQL, SQL Server y Oracle; son ideales cuando los datos están bien estructurados.
- Las bases relacionales permiten relacionar información mediante claves (ej. número de estudiante), facilitando consultas complejas.
Introducción a Bases de Datos NoSQL
- Las bases NoSQL surgieron por nuevas necesidades; no utilizan esquemas rígidos ni tablas tradicionales.
- Son útiles para almacenar grandes volúmenes de datos no estructurados o cambiantes, como expedientes médicos.
Tipos Comunes de Bases NoSQL
- MongoDB almacena información en documentos tipo JSON; ideal para estructuras variables.
- Cassandra maneja grandes volúmenes distribuidos; útil en sistemas generadores constantes de datos.
- Las bases clave/valor como Redis son rápidas y utilizadas principalmente para cacheo temporal.
Introducción a Big Data y Herramientas de Business Intelligence
Conceptos Clave sobre Big Data
- Las plataformas de Big Data permiten procesar información distribuida cuando los datos son demasiado grandes para una sola computadora, facilitando el manejo de grandes volúmenes de datos.
- Ejemplos de tecnologías incluyen HDFS para almacenamiento, Apache Spark para análisis rápido en memoria, y herramientas como Hive para consultas SQL en grandes volúmenes.
- Estas tecnologías son especialmente útiles en entornos empresariales donde se requiere manejar y analizar grandes cantidades de información.
Herramientas de Business Intelligence (BI)
Power BI
- Power BI es una herramienta desarrollada por Microsoft que permite la visualización y creación de reportes interactivos conectándose a diversas fuentes de datos como Excel o bases en la nube.
- Permite a los usuarios explorar información sin necesidad de saber programar, facilitando la toma de decisiones mediante dashboards visuales que integran múltiples indicadores.
Tableau
- Tableau se destaca por su capacidad visual avanzada, permitiendo crear gráficos complejos mediante un sistema intuitivo de arrastrar y soltar elementos.
- Es ideal para descubrir patrones o relaciones dentro de los datos, siendo muy utilizada por analistas y científicos que requieren exploración visual dinámica.
Calipens
- Calipens utiliza un modelo asociativo único que muestra automáticamente las relaciones entre los datos seleccionados, facilitando el análisis exploratorio sin seguir rutas predefinidas.
- Esta herramienta es útil para identificar relaciones ocultas entre datos y realizar análisis dinámicos.
Google Data Studio (Looker Studio)
- Looker Studio es una herramienta gratuita basada en la nube que se integra fácilmente con productos Google, permitiendo crear reportes rápidos y dashboards compartibles en tiempo real.
- Su uso práctico incluye compartir indicadores actualizados con directivos sin necesidad del envío manual de archivos.
Plataformas en la Nube para Análisis de Datos
Ventajas del Uso en la Nube
- Las plataformas en la nube permiten analizar datos sin necesidad de infraestructura propia, ejecutando procesos desde centros remotos accesibles por internet.
- Esto facilita trabajar con grandes volúmenes e incrementar recursos según sea necesario; si hay más datos hoy, se pueden usar más recursos mañana.
Proveedores Principales
- Los principales proveedores incluyen Amazon Web Services (AWS), Microsoft Azure y Google Cloud. AWS ofrece servicios como S3 para almacenamiento; Azure proporciona herramientas como Machine Learning; mientras que Google Cloud también tiene soluciones robustas para análisis.
Herramientas de Análisis y Machine Learning en Google Club
Integración de Plataformas
- Dentro de Google Club, se utilizan varias plataformas como Bit Query para análisis, Locker para visualización y Verte para modelos de machine learning. Estas herramientas se integran en un solo entorno que abarca almacenamiento, análisis y visualización.
Herramientas Avanzadas de Machine Learning
- Se presentan herramientas avanzadas de machine learning e inteligencia artificial que permiten al sistema aprender automáticamente a partir de los datos, realizando predicciones o clasificaciones.
- Existen herramientas diseñadas tanto para usuarios con conocimientos en programación como para aquellos técnicos sin experiencia avanzada. Ejemplos incluyen kits para modelos clásicos (regresión y clasificación) y otras como Sensor Flow y Bitor para deep learning.
Procesamiento ETL y ELT
- Las herramientas ETL (Extraer, Transformar, Cargar) son esenciales aunque a menudo poco visibles. Se utilizan para mover datos desde diversas fuentes hacia sistemas analíticos.
- En el proceso ETL, primero se extraen los datos, luego se transforman (limpieza y corrección), y finalmente se cargan en un repositorio final. En ELT el orden es diferente: primero se cargan los datos antes de transformarlos.
Técnicas de Análisis de Datos
- El análisis de datos no depende únicamente de una herramienta; requiere un conjunto tecnológico que trabaje conjuntamente. Cada tecnología tiene una función específica dentro del proceso.
- Es crucial entender la utilidad específica de cada herramienta en lugar de intentar dominar todas ellas. La combinación adecuada entre metodología, datos y tecnología es clave para proyectos exitosos en análisis de datos.
Conclusiones Finales
- Se establece la importancia del uso práctico adecuado de estas herramientas en futuras sesiones. Se agradece a los participantes por su asistencia e interés en el tema tratado durante la clase.