Introducción a la Minería de Datos y la Inteligencia de Negocios
Conceptos Básicos
- La inteligencia de negocios se refiere a un conjunto de productos y servicios que permiten acceder, analizar y convertir datos en información útil mediante herramientas como data warehouses o databards.
- La minería de datos es un proceso automatizado que extrae información relevante y predictiva de grandes bases de datos, utilizando técnicas para visualización, análisis y modelización.
Objetivos y Enfoque Multidisciplinario
- El objetivo principal es identificar patrones significativos que sean válidos, novedosos y útiles para el negocio, aplicando técnicas de inteligencia artificial.
- Este proceso es multidisciplinario e involucra conceptos estadísticos aplicados sobre bases de datos multidimensionales.
Proceso Típico de Minería de Datos
Pasos Generales
- Un proceso típico consta de varias etapas: selección inicial del conjunto de datos relevantes para predecir o calcular variables específicas.
- Se prepara el conjunto para detectar valores atípicos y nulos; este paso se conoce como preprocesamiento.
Construcción del Modelo
- La técnica seleccionada construye un modelo predictivo o descriptivo basado en los datos procesados. Finalmente, se extrae conocimiento e interpretan los resultados obtenidos.
- Es crucial validar el modelo obtenido para asegurar que las conclusiones son válidas; si no se cumplen expectativas, se deben ajustar pasos anteriores para generar nuevos modelos.
Diferencias entre Consultas Transaccionales y Minería de Datos
Comparación entre Métodos
- Las consultas transaccionales acceden a conjuntos específicos almacenados (ejemplo: ventas del último mes), mientras que la minería infiere conocimiento estructurado desde la base de datos (ejemplo: identificación de clientes potenciales).
- En minería, el sistema sugiere modelos al usuario en lugar que este proponga hipótesis iniciales.
Arquitectura del Proceso
- Se utiliza un repositorio transformado (data warehouse multidimensional) como fuente principal; además, hay una base de conocimientos que guía la búsqueda evaluando patrones y metadatos existentes.
Algoritmos y Técnicas en Minería de Datos
Tipos de Análisis
- Los algoritmos permiten realizar análisis diversos como caracterización, asociación, clasificación, evolución y análisis por desviaciones; si los patrones no son significativos, se repite el proceso con diferentes variables.
Interacción con el Usuario
- La interfaz gráfica facilita la interacción con el usuario permitiendo visualizar patrones hallados bajo distintas formas; los modelos pueden ser predictivos o descriptivos según su función específica en el análisis.
Modelos Predictivos en Minería
Clasificación y Regresión
- Los modelos correlacionales estiman probabilidades basadas en atributos específicos (ejemplo: probabilidad del pago por parte del cliente). La regresión lineal ayuda a encontrar relaciones entre variables (ejemplo: tiempo necesario para corregir errores).
Otras Técnicas Predictivas
Segmentación y Análisis de Supervivencia en el Titanic
Introducción a la Segmentación
- Se realiza una segmentación inicial para analizar qué pasajeros del Titanic tenían más probabilidades de sobrevivir, considerando características asociadas a la supervivencia.
Árboles de Decisión
- Un procedimiento de árbol de decisión identifica grupos homogéneos con diferencias significativas en la proporción de supervivientes, como el sexo (hombres y mujeres).
- Los hombres se dividen en adultos y niños, mientras que las mujeres se agrupan según la clase en que viajaban.
Probabilidades Predictivas
- La probabilidad de supervivencia para un hombre adulto es del 20%, lo que permite hacer predicciones sobre otros miembros del grupo basándose en estas subdivisiones.
Reglas de Asociación
- Las reglas de asociación descubren interrelaciones entre datos, generando reglas a partir del aprendizaje del modelo. Por ejemplo, si un cliente compra leche, es probable que también compre pan.
- Se utilizan algoritmos de aprendizaje supervisado para entrenar modelos con datos conocidos y predecir resultados desconocidos.
Redes Neuronales
- Las redes neuronales son sistemas inspirados en el funcionamiento del sistema nervioso humano, donde múltiples estímulos generan una única salida.
- Estas redes consisten en nodos interconectados que trabajan juntos para producir resultados predictivos mediante entrenamiento.
Agrupamiento o Clustering
- El clustering clasifica elementos en grupos definidos por el usuario según sus características, buscando maximizar similitudes dentro de los grupos (clústeres).
- Cada elemento debe pertenecer a un único clúster; su objetivo es revelar concentraciones dentro de los datos utilizando variables cualitativas o cuantitativas.
Proximidad y Distancia