7가지 일반적인 회귀 유형(및 사용 시기)

에 의해 벤자민 앤더슨 7월 24, 2023 가이드 댓글 0개

회귀 분석은 통계에서 가장 일반적으로 사용되는 기술 중 하나입니다.

회귀 분석의 기본 목표는 하나 이상의 예측 변수와 반응 변수 간의 관계를 가장 잘 설명하는 모델을 맞추는 것입니다.

이 기사에서는 실생활에서 가장 일반적으로 사용되는 7가지 회귀 모델과 각 회귀 유형을 언제 사용해야 하는지를 공유합니다.

1. 선형 회귀

선형 회귀는 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

예측 변수와 반응 변수 사이의 관계는 합리적으로 선형입니다.
반응변수는 연속형 숫자변수입니다.

예: 소매 회사는 총 매출을 예측하기 위해 광고 지출을 사용하여 선형 회귀 모델을 적합할 수 있습니다.

이 두 변수 사이의 관계는 선형일 가능성이 높으며(일반적으로 광고에 더 많은 비용을 지출하면 더 많은 매출이 발생함) 응답 변수(총 매출)가 연속적인 수치 변수이므로 선형 회귀 모델을 조정하는 것이 합리적입니다.

자료: 다중 선형 회귀 소개

2. 로지스틱 회귀

로지스틱 회귀는 하나 이상의 예측 변수와 이항 반응 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

응답 변수는 이진형입니다. 두 개의 값만 사용할 수 있습니다.

예: 의학 연구자들은 운동 및 흡연 습관을 사용하여 개인의 심장마비 가능성을 예측하는 로지스틱 회귀 모델을 적용할 수 있습니다.

반응 변수(심장마비)는 이진형(개인이 심장마비를 경험하는지 여부)이므로 로지스틱 회귀 모델에 적합합니다.

자료: 로지스틱 회귀 소개

3. 다항식 회귀

다항식 회귀는 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

예측 변수와 반응 변수 간의 관계는 비선형입니다.
반응변수는 연속형 숫자변수입니다.

예: 심리학자들은 특정 업계 직원의 “전반적인 행복”을 예측하기 위해 “근로 시간”을 사용하여 다항식 회귀 분석을 적용할 수 있습니다.

이 두 변수 사이의 관계는 아마도 비선형일 것입니다. 즉, 근무 시간이 늘어날수록 개인의 행복도는 더 커질 수 있지만 특정 근무 시간을 초과하면 전반적인 행복은 감소할 가능성이 높습니다. 예측 변수와 반응 변수 간의 관계는 비선형이므로 다항식 회귀 모델을 맞추는 것이 합리적입니다.

자료: 다항식 회귀 소개

4. 능선 회귀

능선 회귀는 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

예측변수는 상관관계가 높으며 다중공선성이 문제가 됩니다.
반응변수는 연속형 숫자변수입니다.

예: 농구 데이터 과학자는 선수 급여를 예측하기 위해 포인트, 어시스트, 리바운드와 같은 예측 변수를 사용하여 능선 회귀 모델을 적합할 수 있습니다.

더 나은 선수가 더 많은 득점, 어시스트 및 리바운드를 갖는 경향이 있으므로 예측 변수는 높은 상관 관계를 가질 가능성이 높습니다. 따라서 다중공선성이 문제가 될 가능성이 높으므로 능선회귀를 사용하여 이 문제를 최소화할 수 있습니다.

자료: 능형 회귀 소개

5. 올가미 회귀

Lasso 회귀는 Ridge 회귀와 매우 유사하며 하나 이상의 예측 변수와 수치 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

예측변수는 상관관계가 높으며 다중공선성이 문제가 됩니다.
반응변수는 연속형 숫자변수입니다.

예: 경제학자는 총 교육 기간, 근무 시간, 생활비 등의 예측 변수를 사용하여 올가미 회귀 모델을 사용하여 가계 소득을 예측할 수 있습니다.

교육 수준이 높은 개인은 생활비가 더 높은 도시에 살고 더 많은 시간을 일하는 경향이 있으므로 예측 변수는 높은 상관 관계를 가질 가능성이 높습니다. 따라서 다중공선성이 문제가 될 가능성이 높으므로 Lasso 회귀를 사용하여 이 문제를 최소화할 수 있습니다.

Lasso 회귀와 Ridge 회귀는 매우 유사합니다. 데이터 세트에서 다중 공선성이 문제가 되는 경우 Lasso 및 Ridge 회귀 모델을 모두 적합시켜 어떤 모델이 가장 잘 작동하는지 확인하는 것이 좋습니다.

자료: 올가미 회귀 소개

6. 포아송 회귀

포아송 회귀 분석은 하나 이상의 예측 변수와 반응 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

응답 변수는 “계산” 데이터입니다. 예를 들어 주당 화창한 날 수, 연간 교통 사고 건수, 일일 통화 건수 등이 있습니다.

예: 대학에서는 포아송 회귀 분석을 사용하여 특정 대학 프로그램에 입학했을 때 GPA와 성별을 기준으로 특정 대학 프로그램을 졸업한 학생 수를 조사할 수 있습니다.

이 경우 반응 변수는 카운트 데이터(졸업생 수를 200, 250, 300, 413 등으로 “계산”할 수 있음)이므로 포아송 회귀분석을 사용하는 것이 적합합니다.

자료: 포아송 회귀 소개

7. 분위수 회귀

분위수 회귀는 하나 이상의 예측 변수와 응답 변수 간의 관계를 설명하는 회귀 모델을 맞추는 데 사용됩니다.

다음과 같은 경우에 사용하세요:

응답 변수의 특정 분위수 또는 백분위수(예: 90번째 백분위수, 95번째 백분위수 등)를 추정하고 싶습니다.

예: 교수는 분위수 회귀를 사용하여 공부한 시간을 기준으로 예상 시험 점수의 90번째 백분위수를 예측할 수 있습니다.

이 경우 교수는 응답변수(시험점수)의 특정 백분위수를 예측하고자 하므로 분위회귀분석을 사용하는 것이 적절하다.

자료: 분위수 회귀 소개

추가 리소스

실생활에서 선형 회귀를 사용하는 4가지 예
실생활에서 로지스틱 회귀를 활용한 4가지 예
ANOVA와 회귀: 차이점은 무엇입니까?
전체 가이드: 회귀 결과 보고 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

1. 선형 회귀

2. 로지스틱 회귀

3. 다항식 회귀

4. 능선 회귀

5. 올가미 회귀

6. 포아송 회귀

7. 분위수 회귀

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다