CUT MIND - Reglas de Asociación
Introducción a las Reglas de Asociación
Concepto y Aplicaciones
- Las reglas de asociación son herramientas utilizadas en minería de datos para analizar patrones de compra en tiendas, ayudando a identificar productos que se venden juntos.
- Algunas aplicaciones incluyen el ordenamiento de productos, la definición de patrones de navegación, sugerencias de promociones efectivas y descuentos específicos para clientes.
Análisis de Encuestas
- Se puede aplicar el análisis de reglas a encuestas, donde cada respuesta se considera un producto. Esto permite descubrir patrones en las respuestas.
- Ejemplo: si una persona es médico y tiene entre 25 y 30 años, hay un 80% de probabilidad que sea soltera.
Algoritmo A Priori
Definiciones Clave
- El algoritmo más común para encontrar reglas es el algoritmo a priori, que identifica automáticamente las reglas desde los datos.
- Un ítemset es una colección de uno o más ítems; por ejemplo, "leche", "pañales" y "cervezas".
Soporte e Ítemsets Frecuentes
- El soporte mide cuántas veces aparece un ítemset en la base de datos. Un ítemset es frecuente si su soporte supera un umbral definido.
- Una regla de asociación se expresa como X → Y (por ejemplo, leche y pañales → cerveza), indicando que la compra del antecedente implica la compra del consecuente.
Ejemplos Prácticos
Comparación entre Reglas
- Se presentan ejemplos con transacciones donde diferentes combinaciones pueden llevar a distintas interpretaciones sobre implicancias entre productos.
- La importancia radica en cómo se interpretan estas relaciones; no todas las combinaciones tienen el mismo significado.
Resumen del Aprendizaje
Conclusiones Generales
- En este video se aprendió sobre el uso práctico de las reglas de asociación para analizar datos tanto en compras como en encuestas.
- Se definieron conceptos clave como ítem set, soporte y regla de asociación. También se destacó que estas reglas están asociadas a indicadores obtenidos directamente desde los datos.
Indicadores de Rendimiento
Evaluación del Soporte
- El objetivo principal es entender los indicadores detrás de las reglas para evaluar su credibilidad al tomar decisiones basadas en ellas.
- El soporte indica la frecuencia relativa del ítem dentro del conjunto total; por ejemplo, calcular el soporte para "leche", "pañales" y "cerveza".
Cálculo Práctico
- Para calcular el soporte se cuentan las transacciones relevantes. En este caso específico, dos quintos (0.4) mostraron compras conjuntas.
Confianza en Reglas
Cálculo de Confianza y Lift en Reglas de Asociación
Introducción a los Ítems y Ocurrencias
- Se discute cómo calcular el numerador para la confianza, utilizando las filas 3 y 4 que contienen dos ocurrencias de los ítems leche y pañales.
- El denominador se determina contando el número total de filas que incluyen ambos ítems, observando que también aparece en la fila 5.
Probabilidad Condicional
- Se establece una relación entre la confianza de una regla (X → Y) y la probabilidad condicional, calculada como la probabilidad conjunta de Y dado X.
- La fórmula permite estimar probabilidades directamente desde transacciones al contar ocurrencias específicas.
Interpretación de Confianza
- Una confianza del 67% indica que el 67% de los consumidores que compraron leche y pañales también compraron cerveza.
- Si la probabilidad previa de comprar cerveza es del 70%, esto sugiere que saber si un cliente compró leche no aporta información adicional sobre su compra de cerveza.
Cálculo del Lift
- Para calcular el lift, se utiliza la fórmula: lift = confianza / soporte.
- Con una confianza previamente calculada (0.67), se determina el soporte para cerveza (3/5), resultando en un lift de aproximadamente 1.117.
Análisis del Lift
- Un lift mayor a uno indica un aumento en la probabilidad de compra cuando se conoce el antecedente; un lift igual a uno significa independencia entre las variables.
- Un lift menor a uno implica que conocer el antecedente reduce la probabilidad del consecuente, sugiriendo una relación negativa entre ellos.
Conclusiones sobre Independencia
- Si el lift es igual a uno, significa que las compras son independientes; saber si un cliente compra leche no afecta su probabilidad de comprar cerveza.