Introducción a la Minería de Datos y la Inteligencia de Negocios

Conceptos Básicos

  • La inteligencia de negocios se refiere a un conjunto de productos y servicios que permiten acceder, analizar y convertir datos en información útil mediante herramientas como data warehouses o databards.
  • La minería de datos es un proceso automatizado que extrae información relevante y predictiva de grandes bases de datos, utilizando técnicas para visualización, análisis y modelización.

Objetivos y Enfoque Multidisciplinario

  • El objetivo principal es identificar patrones significativos que sean válidos, novedosos y útiles para el negocio, aplicando técnicas de inteligencia artificial.
  • Este proceso es multidisciplinario e involucra conceptos estadísticos aplicados sobre bases de datos multidimensionales.

Proceso Típico de Minería de Datos

Pasos Generales

  • Un proceso típico consta de varias etapas: selección inicial del conjunto de datos relevantes para predecir o calcular variables específicas.
  • Se prepara el conjunto para detectar valores atípicos y nulos; este paso se conoce como preprocesamiento.

Construcción del Modelo

  • La técnica seleccionada construye un modelo predictivo o descriptivo basado en los datos procesados. Finalmente, se extrae conocimiento e interpretan los resultados obtenidos.
  • Es crucial validar el modelo obtenido para asegurar que las conclusiones son válidas; si no se cumplen expectativas, se deben ajustar pasos anteriores para generar nuevos modelos.

Diferencias entre Consultas Transaccionales y Minería de Datos

Comparación entre Métodos

  • Las consultas transaccionales acceden a conjuntos específicos almacenados (ejemplo: ventas del último mes), mientras que la minería infiere conocimiento estructurado desde la base de datos (ejemplo: identificación de clientes potenciales).
  • En minería, el sistema sugiere modelos al usuario en lugar que este proponga hipótesis iniciales.

Arquitectura del Proceso

  • Se utiliza un repositorio transformado (data warehouse multidimensional) como fuente principal; además, hay una base de conocimientos que guía la búsqueda evaluando patrones y metadatos existentes.

Algoritmos y Técnicas en Minería de Datos

Tipos de Análisis

  • Los algoritmos permiten realizar análisis diversos como caracterización, asociación, clasificación, evolución y análisis por desviaciones; si los patrones no son significativos, se repite el proceso con diferentes variables.

Interacción con el Usuario

  • La interfaz gráfica facilita la interacción con el usuario permitiendo visualizar patrones hallados bajo distintas formas; los modelos pueden ser predictivos o descriptivos según su función específica en el análisis.

Modelos Predictivos en Minería

Clasificación y Regresión

  • Los modelos correlacionales estiman probabilidades basadas en atributos específicos (ejemplo: probabilidad del pago por parte del cliente). La regresión lineal ayuda a encontrar relaciones entre variables (ejemplo: tiempo necesario para corregir errores).

Otras Técnicas Predictivas

Segmentación y Análisis de Supervivencia en el Titanic

Introducción a la Segmentación

  • Se realiza una segmentación inicial para analizar qué pasajeros del Titanic tenían más probabilidades de sobrevivir, considerando características asociadas a la supervivencia.

Árboles de Decisión

  • Un procedimiento de árbol de decisión identifica grupos homogéneos con diferencias significativas en la proporción de supervivientes, como el sexo (hombres y mujeres).
  • Los hombres se dividen en adultos y niños, mientras que las mujeres se agrupan según la clase en que viajaban.

Probabilidades Predictivas

  • La probabilidad de supervivencia para un hombre adulto es del 20%, lo que permite hacer predicciones sobre otros miembros del grupo basándose en estas subdivisiones.

Reglas de Asociación

  • Las reglas de asociación descubren interrelaciones entre datos, generando reglas a partir del aprendizaje del modelo. Por ejemplo, si un cliente compra leche, es probable que también compre pan.
  • Se utilizan algoritmos de aprendizaje supervisado para entrenar modelos con datos conocidos y predecir resultados desconocidos.

Redes Neuronales

  • Las redes neuronales son sistemas inspirados en el funcionamiento del sistema nervioso humano, donde múltiples estímulos generan una única salida.
  • Estas redes consisten en nodos interconectados que trabajan juntos para producir resultados predictivos mediante entrenamiento.

Agrupamiento o Clustering

  • El clustering clasifica elementos en grupos definidos por el usuario según sus características, buscando maximizar similitudes dentro de los grupos (clústeres).
  • Cada elemento debe pertenecer a un único clúster; su objetivo es revelar concentraciones dentro de los datos utilizando variables cualitativas o cuantitativas.

Proximidad y Distancia