Sesión 2 Análisis de Datos

Sesión 2 Análisis de Datos

Introducción al Análisis de Datos

Presentación y Normas del Curso

  • Humberto Marín Vega da la bienvenida a los participantes y presenta el curso sobre análisis de datos.
  • Se recuerda que las clases son síncronas y se debe registrar asistencia mediante un enlace o código QR, en horario de 9:00 a 21:00 horas.
  • Si no se puede asistir, se debe dejar el nombre completo en los comentarios de la grabación para registrar la asistencia.
  • No hay costo por participar en el curso propedéutico; los usuarios tienen dos intentos para realizar la evaluación final programada para el 17 de enero.

Introducción al Módulo Uno

  • Se inicia con el módulo uno, que es una introducción al análisis de datos, estableciendo las bases necesarias para trabajar con datos y modelos.
  • El enfoque del día es sobre metodologías para el análisis de datos, buscando que los participantes comprendan su utilidad y aplicación.

Metodologías del Análisis de Datos

Definición y Propósito

  • Las metodologías son conjuntos de pasos, técnicas y procesos que transforman datos en información útil para la toma de decisiones.
  • Aseguran que el análisis sea reproducible, permitiendo que otros puedan repetir el proceso y obtener resultados similares.

Enfoque Tradicional del Análisis

  • El enfoque tradicional sigue una secuencia clara: definición del problema, recolección de datos, limpieza/preparación, análisis exploratorio e interpretación/comunicación.
  • La limpieza y preparación son cruciales para eliminar ruidos en los datos antes del análisis.

Ventajas y Desventajas

  • Ventaja: fácil comprensión y uso común en investigaciones científicas.
  • Desventaja: poca flexibilidad ante cambios en problemas o grandes volúmenes de datos; no siempre es adecuado para proyectos modernos.

Modelos Metodológicos Específicos

Introducción a CRISP-DM

  • Se introduce CRISP-DM (Cross Industry Standard Process for Data Mining), un estándar utilizado ampliamente en proyectos avanzados de análisis.
  • Esta metodología es aplicable a diversas áreas como educación, salud, negocios y marketing.

Fases del CRISP-DM

  • La primera fase consiste en comprender el negocio antes de tocar cualquier dato; se define qué problema resolver.

¿Cómo abordar la comprensión del negocio y los datos?

Fases de comprensión del negocio

  • La primera fase en la comprensión del negocio es identificar el problema a resolver, así como los datos que se van a manipular. Es crucial convertirse en expertos del negocio para entender mejor la información y las decisiones que se tomarán.
  • La segunda fase está relacionada con la comprensión de los datos, donde se revisa qué datos existen, su origen y confiabilidad. Es importante detectar cualquier dato anómalo o nulo que pueda afectar el modelo.
  • La tercera fase implica la preparación de los datos, que incluye limpieza (eliminación de nulos y duplicados), selección de variables y transformación a un formato adecuado para el análisis.
  • El modelado es la cuarta fase, donde se aplican técnicas estadísticas o algoritmos para facilitar la toma de decisiones. Esta etapa es fundamental para validar si el modelo cumple con los objetivos iniciales.
  • Finalmente, el despliegue consiste en implementar el modelo en un entorno real para tomar decisiones basadas en los resultados obtenidos.

Ventajas del modelo Cris y Dien

  • Una ventaja clave del modelo Cris y Dien es su naturaleza iterativa y flexible; permite regresar a fases anteriores si algo no funciona correctamente durante el proceso.
  • Por ejemplo, si durante la etapa de modelado se identifica un problema con los datos, se puede volver a la preparación de estos hasta lograr una calidad adecuada antes de continuar.
  • Este enfoque flexible evita un proceso rígido y permite ajustes continuos hasta alcanzar un estado óptimo en el desarrollo del modelo.
  • Otra ventaja significativa es su aplicabilidad en diversos sectores (salud, mercados financieros, etc.), lo que lo convierte en una metodología versátil para proyectos reales.
  • Debido a estas características, Cris es considerada una metodología completa y realista para abordar problemas complejos dentro de diferentes industrias.

¿Qué es KDD y cómo se diferencia?

Etapas del proceso KDD

  • KDD significa "Knowledge Discovery in Databases" (Descubrimiento de Conocimiento en Bases de Datos). Se centra principalmente en descubrir conocimiento útil dentro de grandes volúmenes de datos mediante varias etapas definidas.
  • Las etapas incluyen: selección de datos (identificación de información relevante), preprocesamiento (limpieza y corrección), transformación (preparación para análisis), minería de datos e interpretación/evaluación final.
  • En el preprocesamiento se eliminan errores como valores nulos o incompletos. Esto asegura que solo se utilicen datos limpios durante todo el proceso analítico.
  • La minería de datos busca patrones y relaciones significativas dentro del conjunto limpio. Esta etapa central permite interpretar resultados relevantes que guiarán las decisiones futuras.

Ventajas y desventajas del KDD

  • Una gran ventaja del KDD es su eficacia al trabajar con grandes repositorios de datos; resulta ideal cuando hay volúmenes masivos por analizar debido a su enfoque sistemático sobre generación de conocimiento más allá simplemente obtener modelos predictivos.
  • Sin embargo, una desventaja notable es que no enfatiza tanto el contexto empresarial como lo hace Cris; esto puede limitar su efectividad al no considerar completamente las necesidades específicas del negocio involucrado.

Modelo SENMA y Metodologías de Análisis de Datos

Introducción al Modelo SENMA

  • El modelo SENMA, que significa Sample Explore Modify Model Access, es una metodología orientada al modelado predictivo desarrollada por SAS Perl.
  • La primera etapa, "sample", implica la extracción de una muestra representativa de los datos para su análisis posterior.

Etapas del Modelo SENMA

  • En la segunda etapa, "explore", se analizan estadísticamente los datos para entender su comportamiento y características.
  • La tercera etapa, "modify", consiste en limpiar y transformar los datos para mejorar la precisión en el modelado.
  • En la cuarta etapa, "model", se aplican modelos predictivos; finalmente, en "access" se evalúa la calidad de los resultados obtenidos.

Ventajas y Limitaciones del Modelo SEMA

  • Las ventajas del modelo SEMA incluyen su eficiencia en la construcción de modelos y su uso en entornos que requieren rapidez en el análisis.
  • Sin embargo, una limitación es que no se centra tanto en comprender el problema del negocio como lo hace el enfoque tradicional.

Comparación con Otras Metodologías

  • Se mencionan otras metodologías como el análisis tradicional (seis fases), Cristian (seis fases enfocadas más hacia analítica), y KDD (Knowledge Discovery in Databases).
  • Cada metodología tiene sus propias etapas: desde definición del problema hasta interpretación y evaluación.

Metodologías Ágiles en Análisis de Datos

Importancia de las Metodologías Ágiles

  • Las metodologías ágiles son importantes porque permiten trabajar de forma flexible y adaptarse rápidamente a cambios durante proyectos actuales.

Ejemplos de Metodologías Ágiles

  • Ejemplos incluyen Scrum (ciclos cortos llamados sprints), Kanban (gestión visual del flujo de trabajo), y Link Analytics (definición rápida de métricas clave).

Ventajas Clave

  • Las principales ventajas son flexibilidad, adaptación rápida al cambio y un enfoque continuo en resultados. Son ideales para proyectos modernos que requieren análisis continuo.

Ciclo de Vida del Machine Learning - MLOps

Introducción a MLOps

  • El ciclo de vida del machine learning o MLOps incluye prácticas necesarias para asegurar que un modelo funcione correctamente al ser implementado en producción.

Etapas Clave del Ciclo MLOps

  • Las etapas incluyen: definir el problema, recolección e preparación de datos, entendimiento del modelo, validación, despliegue y monitoreo.

Definición del Problema

  • Es crucial definir qué queremos predecir, cuál es el propósito del modelo y quién será el usuario final. Esta claridad guía todo el proceso posterior.

Recolección y Preparación de Datos

  • En esta fase se obtienen los datos necesarios; estos deben limpiarse y transformarse adecuadamente antes de entrenar el modelo.

Ciclo de Vida del Machine Learning

Entrenamiento y Validación del Modelo

  • La etapa de entrenamiento utiliza algoritmos de machine learning para aprender patrones a partir de los datos identificados.
  • La validación se realiza para comprobar la efectividad del modelo y su capacidad de generalización.

Despliegue y Mantenimiento

  • El despliegue implica implementar el modelo en un sistema real, como una aplicación o plataforma.
  • El monitoreo constante es crucial, ya que los datos cambian con el tiempo, lo que puede afectar la precisión del modelo.

Ventajas del Ciclo de Vida

  • Este ciclo está adaptado a entornos modernos donde los modelos deben funcionar continuamente y permite automatizar procesos como el reentrenamiento.
  • Facilita la escalabilidad, permitiendo el uso eficiente con grandes volúmenes de información sin perder rendimiento.

Metodologías para el Análisis de Datos

Comparativa de Metodologías

  • Se presenta una tabla comparativa que organiza las metodologías vistas hasta ahora, destacando sus diferencias clave.

Enfoque Tradicional

  • El enfoque tradicional es lineal, avanzando paso a paso sin regresar a etapas anteriores; ideal para investigaciones académicas con problemas bien definidos.

Enfoques Alternativos

  • Las metodologías ágiles son flexibles y colaborativas, útiles en proyectos donde los requisitos cambian constantemente.

KDD y SENMA

  • KDD se centra en descubrir patrones en grandes volúmenes de datos pero no enfatiza la implementación del modelo.
  • SENMA se enfoca en modelos estadísticos predictivos, siendo eficiente pero menos profundo en la comprensión del problema empresarial.

Ciclo de Vida del Machine Learning

  • Este ciclo se orienta hacia la producción continua y mantenimiento efectivo del modelo, asegurando su funcionamiento a largo plazo.

Metodologías para el Análisis de Datos

Importancia de la Metodología

  • La elección de una metodología depende del problema a resolver, los datos disponibles y la importancia de implementar la solución en producción.
  • Antes de seleccionar una metodología, es crucial preguntarse: ¿qué problema quiero resolver?, ¿qué tipo de datos tengo? y ¿qué tan importante es poner la solución en producción?

Caso Práctico: Abandono Estudiantil

  • Una universidad busca identificar factores que influyen en el abandono estudiantil antes del segundo año, considerando datos como edad, promedio y asistencia.
  • El análisis no solo implica datos académicos, sino también aspectos sociales que afectan el fenómeno del abandono.

Objetivos Universitarios

  • La universidad tiene varios objetivos claros: comprender el problema, analizar patrones en los datos y construir un modelo predictivo para anticipar riesgos.
  • Se busca implementar este modelo en producción para permitir intervenciones tempranas y evitar el abandono estudiantil.

Selección de Metodología

  • Un enfoque tradicional no sería suficiente ya que no contempla el despliegue ni la interacción continua con los datos.
  • La metodología CRISP-DM se considera más adecuada porque permite entender el problema desde un punto institucional e integrar factores sociales y académicos.

Ventajas de CRISP-DM

  • Esta metodología facilita la preparación y análisis de datos, construcción y evaluación de modelos, así como su despliegue en tiempo real.
  • Permite mejorar continuamente según las variaciones en los datos a lo largo del tiempo.

Registro de Asistencia

Importancia del Registro

  • Se recuerda a los participantes registrar su asistencia mediante un código QR para llevar control adecuado durante las sesiones.

Tecnologías Actuales para el Análisis de Datos

Introducción a Tecnologías

  • En esta sección se abordarán las herramientas actuales utilizadas para el análisis de datos, incluyendo lenguajes y plataformas relevantes.

Definición General

  • Las tecnologías incluyen herramientas que permiten recolectar, almacenar, procesar, analizar y visualizar información. Es fundamental combinar diversas tecnologías dentro del mismo proyecto.

Lenguajes de Programación

  • Se comenzará con Python como uno de los lenguajes más populares por su facilidad y amplia disponibilidad de bibliotecas útiles para ciencia de datos.

Lenguajes de Programación y Bases de Datos en Análisis de Datos

Herramientas y Bibliotecas Clave en Python

  • Se mencionan bibliotecas esenciales como Pandas para análisis y manipulación de datos, NumPy para cálculos numéricos, y herramientas como Matplotlib y Seaborn para visualización.
  • El uso de TensorFlow y PyTorch se destaca para el análisis en machine learning, permitiendo aplicar modelos precargados.

Comparativa entre Python y R

  • Python es versátil, utilizado tanto en análisis exploratorio como en sistemas de producción.
  • R es especializado en estadística, con bibliotecas potentes como Tidyverse, que facilita la manipulación de datos, y otras herramientas para visualización e interactividad.

SQL: Lenguaje Fundamental para Manipulación de Datos

  • SQL se clasifica como un lenguaje esencial aunque no es un lenguaje de programación; se utiliza principalmente para consultar y manipular datos almacenados.
  • La mayoría de los proyectos analíticos inician con SQL debido a que los datos suelen estar almacenados en bases relacionales.

Bases de Datos Relacionales

  • Ejemplos incluyen MySQL, PostgreSQL, SQL Server y Oracle; son ideales cuando los datos están bien estructurados.
  • Las bases relacionales permiten relacionar información mediante claves (ej. número de estudiante), facilitando consultas complejas.

Introducción a Bases de Datos NoSQL

  • Las bases NoSQL surgieron por nuevas necesidades; no utilizan esquemas rígidos ni tablas tradicionales.
  • Son útiles para almacenar grandes volúmenes de datos no estructurados o cambiantes, como expedientes médicos.

Tipos Comunes de Bases NoSQL

  • MongoDB almacena información en documentos tipo JSON; ideal para estructuras variables.
  • Cassandra maneja grandes volúmenes distribuidos; útil en sistemas generadores constantes de datos.
  • Las bases clave/valor como Redis son rápidas y utilizadas principalmente para cacheo temporal.

Introducción a Big Data y Herramientas de Business Intelligence

Conceptos Clave sobre Big Data

  • Las plataformas de Big Data permiten procesar información distribuida cuando los datos son demasiado grandes para una sola computadora, facilitando el manejo de grandes volúmenes de datos.
  • Ejemplos de tecnologías incluyen HDFS para almacenamiento, Apache Spark para análisis rápido en memoria, y herramientas como Hive para consultas SQL en grandes volúmenes.
  • Estas tecnologías son especialmente útiles en entornos empresariales donde se requiere manejar y analizar grandes cantidades de información.

Herramientas de Business Intelligence (BI)

Power BI

  • Power BI es una herramienta desarrollada por Microsoft que permite la visualización y creación de reportes interactivos conectándose a diversas fuentes de datos como Excel o bases en la nube.
  • Permite a los usuarios explorar información sin necesidad de saber programar, facilitando la toma de decisiones mediante dashboards visuales que integran múltiples indicadores.

Tableau

  • Tableau se destaca por su capacidad visual avanzada, permitiendo crear gráficos complejos mediante un sistema intuitivo de arrastrar y soltar elementos.
  • Es ideal para descubrir patrones o relaciones dentro de los datos, siendo muy utilizada por analistas y científicos que requieren exploración visual dinámica.

Calipens

  • Calipens utiliza un modelo asociativo único que muestra automáticamente las relaciones entre los datos seleccionados, facilitando el análisis exploratorio sin seguir rutas predefinidas.
  • Esta herramienta es útil para identificar relaciones ocultas entre datos y realizar análisis dinámicos.

Google Data Studio (Looker Studio)

  • Looker Studio es una herramienta gratuita basada en la nube que se integra fácilmente con productos Google, permitiendo crear reportes rápidos y dashboards compartibles en tiempo real.
  • Su uso práctico incluye compartir indicadores actualizados con directivos sin necesidad del envío manual de archivos.

Plataformas en la Nube para Análisis de Datos

Ventajas del Uso en la Nube

  • Las plataformas en la nube permiten analizar datos sin necesidad de infraestructura propia, ejecutando procesos desde centros remotos accesibles por internet.
  • Esto facilita trabajar con grandes volúmenes e incrementar recursos según sea necesario; si hay más datos hoy, se pueden usar más recursos mañana.

Proveedores Principales

  • Los principales proveedores incluyen Amazon Web Services (AWS), Microsoft Azure y Google Cloud. AWS ofrece servicios como S3 para almacenamiento; Azure proporciona herramientas como Machine Learning; mientras que Google Cloud también tiene soluciones robustas para análisis.

Herramientas de Análisis y Machine Learning en Google Club

Integración de Plataformas

  • Dentro de Google Club, se utilizan varias plataformas como Bit Query para análisis, Locker para visualización y Verte para modelos de machine learning. Estas herramientas se integran en un solo entorno que abarca almacenamiento, análisis y visualización.

Herramientas Avanzadas de Machine Learning

  • Se presentan herramientas avanzadas de machine learning e inteligencia artificial que permiten al sistema aprender automáticamente a partir de los datos, realizando predicciones o clasificaciones.
  • Existen herramientas diseñadas tanto para usuarios con conocimientos en programación como para aquellos técnicos sin experiencia avanzada. Ejemplos incluyen kits para modelos clásicos (regresión y clasificación) y otras como Sensor Flow y Bitor para deep learning.

Procesamiento ETL y ELT

  • Las herramientas ETL (Extraer, Transformar, Cargar) son esenciales aunque a menudo poco visibles. Se utilizan para mover datos desde diversas fuentes hacia sistemas analíticos.
  • En el proceso ETL, primero se extraen los datos, luego se transforman (limpieza y corrección), y finalmente se cargan en un repositorio final. En ELT el orden es diferente: primero se cargan los datos antes de transformarlos.

Técnicas de Análisis de Datos

  • El análisis de datos no depende únicamente de una herramienta; requiere un conjunto tecnológico que trabaje conjuntamente. Cada tecnología tiene una función específica dentro del proceso.
  • Es crucial entender la utilidad específica de cada herramienta en lugar de intentar dominar todas ellas. La combinación adecuada entre metodología, datos y tecnología es clave para proyectos exitosos en análisis de datos.

Conclusiones Finales

  • Se establece la importancia del uso práctico adecuado de estas herramientas en futuras sesiones. Se agradece a los participantes por su asistencia e interés en el tema tratado durante la clase.
Video description

Sigue la sesión 2 del propedéutico de Análisis de Datos. Link del pase de lista: https://www.epc.gob.mx/cpfia-asistencia-analisis-de-datos/ #TecNM #INFOTEC