5 실생활에서의 군집 분석 사례
클러스터 분석은 데이터 세트 내에서 관찰 그룹을 찾으려고 시도하는 기계 학습 에 사용되는 기술입니다.
군집 분석의 목표는 각 군집 내의 관측값이 서로 매우 유사한 반면, 다른 군집의 관측값은 서로 상당히 다른 군집을 찾는 것입니다.
다음 예는 다양한 실제 상황에서 클러스터 분석이 어떻게 사용되는지 보여줍니다.
예 1: 소매 마케팅
소매 회사에서는 유사한 가구 그룹을 식별하기 위해 클러스터링을 사용하는 경우가 많습니다.
예를 들어 소매업체는 다음과 같은 가구 정보를 수집할 수 있습니다.
- 가구 소득
- 가구 규모
- 세대주 직업
- 가장 가까운 도시 지역까지의 거리
그런 다음 이러한 변수를 클러스터링 알고리즘에 도입하여 잠재적으로 다음 클러스터를 식별할 수 있습니다.
- 그룹 1: 소규모 가족, 지출이 많은 사람
- 그룹 2: 대가족, 지출이 많은 사람
- 그룹 3: 소규모 가족, 저렴한 비용
- 그룹 4: 대가족, 저렴한 비용
그런 다음 회사는 특정 유형의 광고에 응답할 가능성을 기반으로 각 가구에 개인화된 광고 또는 판매 편지를 보낼 수 있습니다.
예시 2: 스트리밍 서비스
스트리밍 서비스는 클러스터링 분석을 사용하여 비슷한 행동을 하는 시청자를 식별하는 경우가 많습니다.
예를 들어 스트리밍 서비스는 개인에 대해 다음과 같은 데이터를 수집할 수 있습니다.
- 일일 시청 시간(분)
- 주당 총 시청 횟수
- 매월 시청한 고유 프로그램 수
스트리밍 서비스는 이러한 지표를 사용하여 클러스터 분석을 수행하여 사용량이 많은 사용자와 낮은 사용자를 식별함으로써 대부분의 광고 예산을 누구에게 지출해야 하는지 알 수 있습니다.
사례 3: 스포츠 과학
스포츠 팀 데이터 과학자는 유사한 선수를 식별하기 위해 클러스터링을 사용하는 경우가 많습니다.
예를 들어, 프로 농구팀은 다음과 같은 선수 정보를 수집할 수 있습니다.
- 게임당 포인트
- 경기당 리바운드
- 경기당 어시스트
- 경기당 스틸
그런 다음 이러한 변수를 그룹화 알고리즘에 입력하여 유사한 플레이어를 식별함으로써 서로 훈련하고 강점과 약점에 따라 특정 훈련을 수행할 수 있습니다.
예 4: 이메일 마케팅
많은 기업에서는 클러스터 분석을 사용하여 유사한 소비자를 식별하고 수익을 극대화하는 방식으로 소비자에게 전송되는 이메일을 맞춤화할 수 있습니다.
예를 들어 기업은 소비자에 대해 다음과 같은 정보를 수집할 수 있습니다.
- 열어본 이메일의 비율
- 이메일당 클릭수
- 이메일 확인에 소요된 시간
이러한 지표를 사용하여 기업은 클러스터 분석을 수행하여 비슷한 방식으로 이메일을 사용하는 소비자를 식별하고 이메일 유형과 다양한 고객 그룹에 보내는 이메일 빈도를 조정할 수 있습니다.
사례 5: 건강 보험
건강 보험 회사 보험계리사는 특정 방식으로 건강 보험을 사용하는 소비자의 “클러스터”를 식별하기 위해 클러스터 분석을 자주 사용해 왔습니다.
예를 들어, 보험계리사는 가구에 대해 다음과 같은 정보를 수집할 수 있습니다.
- 연간 총 의사 방문 횟수
- 총 가구 규모
- 가구당 만성질환 총 건수
- 가구 구성원의 평균 연령
그런 다음 보험 계리사는 이러한 변수를 클러스터링 알고리즘에 입력하여 유사한 가구를 식별할 수 있습니다. 그런 다음 건강 보험 회사는 특정 그룹의 가구가 보험을 사용할 것으로 예상되는 빈도에 따라 월 보험료를 설정할 수 있습니다.
추가 리소스
다음 튜토리얼에서는 통계 프로그래밍 언어를 사용하여 다양한 유형의 클러스터 분석을 수행하는 방법을 설명합니다.
Python에서 K-평균 클러스터링을 수행하는 방법
R에서 K-평균 클러스터링을 수행하는 방법
R에서 K-Medoids 클러스터링을 수행하는 방법
R에서 계층적 클러스터링을 수행하는 방법