7가지 일반적인 회귀 유형(및 사용 시기)
회귀 분석은 통계에서 가장 일반적으로 사용되는 기술 중 하나입니다.
회귀 분석의 기본 목표는 하나 이상의 예측 변수와 반응 변수 간의 관계를 가장 잘 설명하는 모델을 맞추는 것입니다.
이 기사에서는 실생활에서 가장 일반적으로 사용되는 7가지 회귀 모델과 각 회귀 유형을 언제 사용해야 하는지를 공유합니다.
1. 선형 회귀
선형 회귀는 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 예측 변수와 반응 변수 사이의 관계는 합리적으로 선형입니다.
- 반응변수는 연속형 숫자변수입니다.
예: 소매 회사는 총 매출을 예측하기 위해 광고 지출을 사용하여 선형 회귀 모델을 적합할 수 있습니다.
이 두 변수 사이의 관계는 선형일 가능성이 높으며(일반적으로 광고에 더 많은 비용을 지출하면 더 많은 매출이 발생함) 응답 변수(총 매출)가 연속적인 수치 변수이므로 선형 회귀 모델을 조정하는 것이 합리적입니다.
자료: 다중 선형 회귀 소개
2. 로지스틱 회귀
로지스틱 회귀는 하나 이상의 예측 변수와 이항 반응 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 응답 변수는 이진형입니다. 두 개의 값만 사용할 수 있습니다.
예: 의학 연구자들은 운동 및 흡연 습관을 사용하여 개인의 심장마비 가능성을 예측하는 로지스틱 회귀 모델을 적용할 수 있습니다.
반응 변수(심장마비)는 이진형(개인이 심장마비를 경험하는지 여부)이므로 로지스틱 회귀 모델에 적합합니다.
자료: 로지스틱 회귀 소개
3. 다항식 회귀
다항식 회귀는 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 예측 변수와 반응 변수 간의 관계는 비선형입니다.
- 반응변수는 연속형 숫자변수입니다.
예: 심리학자들은 특정 업계 직원의 “전반적인 행복”을 예측하기 위해 “근로 시간”을 사용하여 다항식 회귀 분석을 적용할 수 있습니다.
이 두 변수 사이의 관계는 아마도 비선형일 것입니다. 즉, 근무 시간이 늘어날수록 개인의 행복도는 더 커질 수 있지만 특정 근무 시간을 초과하면 전반적인 행복은 감소할 가능성이 높습니다. 예측 변수와 반응 변수 간의 관계는 비선형이므로 다항식 회귀 모델을 맞추는 것이 합리적입니다.
자료: 다항식 회귀 소개
4. 능선 회귀
능선 회귀는 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 예측변수는 상관관계가 높으며 다중공선성이 문제가 됩니다.
- 반응변수는 연속형 숫자변수입니다.
예: 농구 데이터 과학자는 선수 급여를 예측하기 위해 포인트, 어시스트, 리바운드와 같은 예측 변수를 사용하여 능선 회귀 모델을 적합할 수 있습니다.
더 나은 선수가 더 많은 득점, 어시스트 및 리바운드를 갖는 경향이 있으므로 예측 변수는 높은 상관 관계를 가질 가능성이 높습니다. 따라서 다중공선성이 문제가 될 가능성이 높으므로 능선회귀를 사용하여 이 문제를 최소화할 수 있습니다.
자료: 능형 회귀 소개
5. 올가미 회귀
Lasso 회귀는 Ridge 회귀와 매우 유사하며 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 예측변수는 상관관계가 높으며 다중공선성이 문제가 됩니다.
- 반응변수는 연속형 숫자변수입니다.
예: 경제학자는 총 교육 기간, 근무 시간, 생활비 등의 예측 변수를 사용하여 올가미 회귀 모델을 사용하여 가계 소득을 예측할 수 있습니다.
교육 수준이 높은 개인은 생활비가 더 높은 도시에 살고 더 많은 시간을 일하는 경향이 있으므로 예측 변수는 높은 상관 관계를 가질 가능성이 높습니다. 따라서 다중공선성이 문제가 될 가능성이 높으므로 Lasso 회귀를 사용하여 이 문제를 최소화할 수 있습니다.
Lasso 회귀와 Ridge 회귀는 매우 유사합니다. 데이터 세트에서 다중 공선성이 문제가 되는 경우 Lasso 및 Ridge 회귀 모델을 모두 적합시켜 어떤 모델이 가장 잘 작동하는지 확인하는 것이 좋습니다.
자료: 올가미 회귀 소개
6. 포아송 회귀
포아송 회귀 분석은 하나 이상의 예측 변수와 반응 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 응답 변수는 “계산” 데이터입니다. 예를 들어 주당 화창한 날 수, 연간 교통 사고 건수, 일일 통화 건수 등이 있습니다.
예: 대학에서는 포아송 회귀 분석을 사용하여 특정 대학 프로그램에 입학했을 때 GPA와 성별을 기준으로 특정 대학 프로그램을 졸업한 학생 수를 조사할 수 있습니다.
이 경우 반응 변수는 카운트 데이터(졸업생 수를 200, 250, 300, 413 등으로 “계산”할 수 있음)이므로 포아송 회귀분석을 사용하는 것이 적합합니다.
자료: 포아송 회귀 소개
7. 분위수 회귀
분위수 회귀는 하나 이상의 예측 변수와 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.
다음과 같은 경우에 사용하세요:
- 응답 변수의 특정 분위수 또는 백분위수(예: 90번째 백분위수, 95번째 백분위수 등)를 추정하고 싶습니다.
예: 교수는 분위수 회귀를 사용하여 공부한 시간을 기준으로 예상 시험 점수의 90번째 백분위수를 예측할 수 있습니다.
이 경우 교수는 응답변수(시험점수)의 특정 백분위수를 예측하고자 하므로 분위회귀분석을 사용하는 것이 적절하다.
자료: 분위수 회귀 소개
추가 리소스
실생활에서 선형 회귀를 사용하는 4가지 예
실생활에서 로지스틱 회귀를 활용한 4가지 예
ANOVA와 회귀: 차이점은 무엇입니까?
전체 가이드: 회귀 결과 보고 방법