선형 판별 분석 소개

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

일련의 예측 변수가 있고 응답 변수를 두 클래스 중 하나로 분류하려는 경우 일반적으로 로지스틱 회귀를 사용합니다.

예를 들어 다음 시나리오에서 로지스틱 회귀를 사용할 수 있습니다.

우리는 신용 점수 와 은행 잔액을 사용하여 특정 고객이 대출을 불이행할지 여부를 예측하려고 합니다. (응답 변수 = “기본값” 또는 “기본값 없음”)

그러나 응답 변수에 가능한 클래스가 2개 이상인 경우 일반적으로 LDA라고 하는 선형 판별 분석 방법을 사용하는 것을 선호합니다.

예를 들어 다음 시나리오에서 LDA를 사용할 수 있습니다.

우리는 게임당 포인트 와 게임당 리바운드를 사용하여 특정 고등학교 농구 선수가 디비전 1, 디비전 2 또는 디비전 3의 세 학교 중 하나에 합격할지 여부를 예측하려고 합니다.

분류 에는 LDA와 로지스틱 회귀 모델이 모두 사용되지만 여러 클래스에 대한 예측을 할 때는 LDA가 로지스틱 회귀보다 훨씬 안정적이므로 응답 변수가 2개 이상의 클래스를 취할 수 있는 경우 사용하는 것이 선호되는 알고리즘입니다. 클래스.

LDA는 또한 로지스틱 회귀에 비해 표본 크기가 작을 때 가장 잘 작동하므로 큰 표본을 수집할 수 없을 때 선호되는 방법입니다.

LDA 모델을 만드는 방법

LDA는 주어진 데이터 세트에 대해 다음과 같은 가정을 합니다.

(1) 각 예측변수의 값은 정규분포를 따릅니다. 즉, 주어진 예측 변수에 대한 값의 분포를 시각화하기 위해 히스토그램을 만들었다면 대략 “종 모양”을 갖게 될 것입니다.

(2) 각 예측 변수는 동일한 분산을 갖습니다. 이는 실제 데이터에서는 거의 발생하지 않으므로 일반적으로 LDA 모델을 실제로 맞추기 전에 동일한 평균과 분산을 갖도록 각 변수를 조정합니다.

이러한 가설이 검증되면 LDA는 다음 값을 추정합니다.

μ _k : ^k번째 클래스의 모든 훈련 관찰의 평균입니다.
σ ² : k 개 클래스 각각에 대한 표본 분산의 가중 평균입니다.
π _k : ^k번째 클래스에 속하는 훈련 관측값의 비율입니다.

그런 다음 LDA는 이 숫자를 다음 공식에 연결하고 공식이 가장 큰 값을 생성하는 클래스에 각 관측값 X = x를 할당합니다.

d _k (x) = x * (μ _k /σ ² ) – (μ _k ² /2σ ² ) + log(π _k )

위 함수에 의해 생성된 값은 x의 선형 함수 결과에서 나오므로 LDA 이름에 선형이 있다는 점에 유의하세요.

LDA용 데이터를 준비하는 방법

LDA 모델을 적용하기 전에 데이터가 다음 요구 사항을 충족하는지 확인하세요.

1. 반응 변수는 범주형입니다 . LDA 모델은 분류 문제, 즉 반응 변수를 클래스나 범주에 배치할 수 있는 문제에 사용하도록 설계되었습니다.

2. 예측 변수는 정규 분포를 따릅니다 . 먼저, 각 예측 변수가 대략적으로 정규 분포를 따르는지 확인합니다. 그렇지 않은 경우 먼저 데이터를 변환하여 분포를 보다 정규화하도록 선택할 수 있습니다.

3. 각 예측변수는 동일한 분산을 갖습니다 . 앞서 언급했듯이 LDA는 각 예측 변수가 동일한 분산을 갖는다고 가정합니다. 실제로는 이런 경우가 거의 없기 때문에 평균이 0이고 표준편차가 1이 되도록 데이터세트의 각 변수를 조정하는 것이 좋습니다.

4. 극단적인 특이치를 설명합니다. LDA를 적용하기 전에 데이터세트에서 극단적인 이상값이 있는지 확인하세요. 일반적으로 상자 그림 이나 산점도를 사용하여 이상값을 시각적으로 확인할 수 있습니다.

선형 판별 분석 사용 예

LDA 모델은 실생활의 다양한 영역에 적용됩니다. 여기 몇 가지 예가 있어요.

1. 마케팅 . 소매업체는 종종 LDA를 사용하여 쇼핑객을 여러 범주 중 하나로 분류합니다. 예를 들어, 소득 , 연간 총 지출, 가구 규모 등의 예측 변수를 사용하여 특정 구매자가 저소득층, 중간층, 고액 소비층인지 예측하는 LDA 모델을 만들 수 있습니다.

2.의료 . 병원과 의학 연구팀은 종종 LDA를 사용하여 주어진 비정상 세포 그룹이 경증, 중등도 또는 중증 질환으로 이어질 가능성이 있는지 예측합니다.

3. 제품 개발 . 기업은 성별 , 연소득 , 유사한 제품의 사용 빈도 등 다양한 예측 변수를 기반으로 특정 소비자가 자사 제품을 매일, 매주, 매월 또는 매년 사용할지 여부를 예측하는 LDA 모델을 만들 수 있습니다.

4. 생태학. 연구자들은 크기 , 연간 오염 및 손실 과 같은 다양한 예측 변수를 기반으로 특정 산호초의 전반적인 건강 상태가 좋음, 보통, 나쁨 또는 위험에 처해 있는지 여부를 예측하는 LDA 모델을 만들 수 있습니다. 나이 .

R 및 Python의 LDA

다음 자습서에서는 R 및 Python에서 선형 판별 분석을 수행하는 방법에 대한 단계별 예를 제공합니다.

R의 선형 판별 분석(단계별)
Python의 선형 판별 분석(단계별)

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기