5 примеров кластерного анализа в реальной жизни
Кластерный анализ — это метод, используемый в машинном обучении , который пытается найти группы наблюдений в наборе данных.
Цель кластерного анализа — найти кластеры, в которых наблюдения внутри каждого кластера очень похожи друг на друга, в то время как наблюдения в разных кластерах сильно отличаются друг от друга.
Следующие примеры показывают, как кластерный анализ используется в различных реальных ситуациях.
Пример 1: Розничный маркетинг
Компании розничной торговли часто используют кластеризацию для выявления групп схожих домохозяйств.
Например, розничный бизнес может собирать следующую информацию о домохозяйстве:
- Семейный доход
- Размер семьи
- Глава семьи Профессия
- Расстояние до ближайшего населенного пункта
Затем они могут ввести эти переменные в алгоритм кластеризации, чтобы потенциально идентифицировать следующие кластеры:
- Группа 1: Маленькие семьи, большие транжиры.
- Группа 2: Большая семья, большие транжиры.
- Группа 3: Маленькая семья, низкие расходы.
- Группа 4: Большая семья, низкие расходы.
Затем компания может отправлять персонализированную рекламу или рекламные письма каждому домохозяйству, исходя из вероятности того, что они отреагируют на определенные типы рекламы.
Пример 2: потоковые сервисы
Стриминговые сервисы часто используют кластерный анализ для выявления зрителей со схожим поведением.
Например, потоковый сервис может собирать следующие данные о людях:
- Минуты просмотра в день
- Общее количество сеансов просмотра в неделю
- Количество уникальных шоу, просмотренных в месяц
Используя эти метрики, служба потоковой передачи может выполнять кластерный анализ для выявления пользователей с высоким и низким уровнем использования, чтобы они могли знать, на кого им следует тратить большую часть своего рекламного бюджета.
Пример 3: Спортивная наука
Специалисты по данным спортивных команд часто используют кластеризацию для выявления похожих игроков.
Например, профессиональные баскетбольные команды могут собирать следующую информацию об игроках:
- Очки за игру
- Подборы за игру
- Ассистов за матч
- Перехваты за игру
Затем они могут ввести эти переменные в алгоритм группировки, чтобы идентифицировать похожих игроков, чтобы они могли тренироваться друг с другом и выполнять конкретные упражнения на основе их сильных и слабых сторон.
Пример 4: Email-маркетинг
Многие компании используют кластерный анализ для выявления похожих потребителей, чтобы они могли адаптировать электронные письма, отправляемые потребителям, таким образом, чтобы максимизировать доход.
Например, компания может собирать следующую информацию о потребителях:
- Процент открытых писем
- Количество кликов на одно письмо
- Время, потраченное на проверку электронной почты
Используя эти показатели, компания может выполнить кластерный анализ, чтобы выявить потребителей, которые используют электронную почту одинаковым образом, и адаптировать типы электронных писем и частоту их отправки различным группам клиентов.
Пример 5: Медицинское страхование
Актуарии компаний медицинского страхования часто используют кластерный анализ для выявления «кластеров» потребителей, которые используют свое медицинское страхование определенным образом.
Например, актуарий может собирать следующую информацию о домохозяйствах:
- Общее количество посещений врача в год
- Общий размер домохозяйства
- Общее количество хронических заболеваний на домохозяйство
- Средний возраст членов семьи
Затем актуарий может ввести эти переменные в алгоритм кластеризации для выявления похожих домохозяйств. Медицинская страховая компания может затем устанавливать ежемесячные страховые взносы в зависимости от того, как часто, по ее ожиданиям, домохозяйства в определенных группах будут пользоваться ее страховкой.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять различные типы кластерного анализа с использованием языков статистического программирования:
Как выполнить кластеризацию K-средних в Python
Как выполнить кластеризацию K-Means в R
Как выполнить кластеризацию K-Medoids в R
Как выполнить иерархическую кластеризацию в R