CUT MIND - Reglas de Asociación
Введение в правила ассоциации
Основные концепции правил ассоциации
- Правила ассоциации используются для анализа покупок продуктов в магазинах, позволяя выявлять паттерны и группы товаров, которые часто продаются вместе.
- Применения анализа включают упорядочение продуктов, определение навигационных паттернов в магазинах и предложение эффективных акций на пары товаров.
Анализ опросов как аналогия
- Опросы можно рассматривать как покупки, где каждая ответ соответствует конкретному продукту. Это позволяет анализировать данные опросов так же, как и данные о покупках.
- Анализ может помочь обнаружить неизвестные паттерны ответов и проверить гипотезы о предпочтениях людей.
Алгоритм A-Priori
Определения ключевых понятий
- Алгоритм A-Priori — наиболее распространенный метод для автоматического нахождения правил ассоциации из данных.
- Итемсет — это коллекция одного или нескольких элементов (например, "молоко", "подгузники" и "пиво").
Поддержка и частота
- Поддержка отражает количество раз, когда итемсет появляется в базе данных; относительная поддержка — это частота появления итемсета по отношению к общему числу транзакций.
- Правило ассоциации имеет вид x → y (например, "молоко" и "подгузники" → "пиво"), что подразумевает связь между покупками.
Примеры правил ассоциации
Визуализация данных
- Таблица с транзакциями показывает различные комбинации продуктов. Например, одна транзакция может содержать два продукта, а другая — четыре.
- Разные правила могут быть сформированы из одних и тех же продуктов; важно понимать контекст каждой связи.
Выбор значимых правил
- Не все возможные правила будут выбраны; только те, которые превышают заранее определенные пороги интереса.
Индикаторы производительности
Понимание поддержки
- Поддержка итемсета определяется как относительная частота его появления в базе данных. Например, поддержка правила "молоко", "подгузники" → "пиво" равна поддержке соответствующего итемсета.
Расчет доверия
- Доверие для правила x → y указывает вероятность покупки y при условии покупки x. Оно рассчитывается на основе количества транзакций с обоими элементами.
Как рассчитывать доверие и лифт в правилах ассоциации?
Расчет доверия для правил ассоциации
- Обсуждается, как считать количество строк, содержащих одновременно три элемента: молоко и подгузники. Это позволяет определить числитель для расчета доверия.
- Упоминается, что молоко и подгузники также встречаются в пятой строке, что увеличивает общее количество случаев для расчета знаменателя.
Вероятностные связи между элементами
- Поясняется связь между расчетом доверия правила x → y и вероятностью появления набора элементов y при условии x с использованием формулы условной вероятности.
- Если правило имеет доверие 0.67, это означает, что 67% покупателей молока и подгузников также купили пиво.
Влияние поддержки на доверие
- Высокое значение доверия может быть связано с высокой поддержкой правой части правила независимо от левой части.
- Приводится пример: если вероятность покупки пива составляет 70%, то знание о покупке молока не добавляет информации о вероятности покупки пива.
Расчет лифта (lift)
- Для вычисления лифта необходимо рассчитать доверие правила и поддержку пива. Доверие уже было рассчитано как 0.67.
- Поддержка пива определяется количеством строк с этим продуктом; в данном случае она равна 3 из 5.
Интерпретация результатов лифта
- Лифт рассчитывается как отношение доверия к поддержке; если он больше одного, это указывает на увеличение вероятности покупки пива при наличии молока и подгузников.
- Если лифт равен одному, это говорит о том, что информация о покупке молока не влияет на вероятность покупки пива.
Зависимость между переменными
- Если лифт меньше одного, это указывает на отрицательное влияние antecedent (молоко и подгузники) на последующий элемент (пиво).
- Пример показывает независимость переменных: если лифт равен одному, то покупка молока не влияет на вероятность покупки пива.
Основные концепции