단순 선형 회귀 소개

에 의해 벤자민 앤더슨 7월 30, 2023 가이드 댓글 0개

단순 선형 회귀는 두 변수 x와 y 사이의 관계를 이해하는 데 사용할 수 있는 통계 방법입니다.

변수 x 는 예측 변수 라고 합니다.

다른 변수 y 는 응답 변수 로 알려져 있습니다.

예를 들어, 7명의 체중과 키가 포함된 다음 데이터 세트가 있다고 가정합니다.

단순 선형 회귀

체중을 예측 변수로 설정하고 키를 반응 변수로 설정합니다.

x축에 가중치를, y축에 높이를 지정하여 산점도를 사용하여 이 두 변수를 그래프로 표시하면 다음과 같습니다.

선형 회귀 산점도

체중과 키의 관계를 이해하고 싶다고 가정해 보겠습니다. 산점도에서 우리는 체중이 증가함에 따라 키도 증가하는 경향이 있음을 분명히 볼 수 있습니다. 그러나 실제로 체중과 키 사이의 관계를 정량화 하려면 선형 회귀를 사용해야 합니다.

선형 회귀를 사용하면 데이터에 가장 잘 맞는 선을 찾을 수 있습니다. 이 선은 최소 제곱 회귀선 으로 알려져 있으며 체중과 키 사이의 관계를 이해하는 데 도움이 될 수 있습니다.

일반적으로 이 선의 방정식을 찾으려면 Microsoft Excel, SPSS 또는 그래프 계산기와 같은 소프트웨어를 사용합니다.

가장 적합한 선의 공식은 다음과 같습니다.

ŷ = _b0 + _b1x

여기서 ŷ는 반응 변수의 예측 값이고, b ₀ 은 절편이고, b ₁ 은 회귀 계수이고, x는 예측 변수의 값입니다.

관련 항목: 실생활에서 선형 회귀를 사용하는 4가지 예

“가장 적합한 라인”을 찾아보세요

이 예에서는 데이터를 통계 선형 회귀 계산기 에 연결하고 Calculate를 누르면 됩니다.

선형 회귀 방정식 계산

계산기는 자동으로 최소 제곱 회귀선을 찾습니다.

ŷ = 32.7830 + 0.2001x

이전 산점도를 축소하고 그래프에 이 선을 추가하면 다음과 같습니다.

데이터 포인트가 이 선 주위에 어떻게 밀접하게 흩어져 있는지 확인하세요. 실제로 이 최소 제곱 회귀선은 우리가 그릴 수 있는 모든 선 중에서 우리 데이터에 가장 적합한 선입니다.

최소 제곱 회귀선을 해석하는 방법

이 최소 제곱 회귀선을 해석하는 방법은 다음과 같습니다. ŷ = 32.7830 + 0.2001x

_b0 = 32.7830 . 이는 예측 변수 체중 이 0파운드일 때 예측 키가 32.7830인치라는 것을 의미합니다. 때로는 b ₀ 값을 아는 것이 유용할 수 있지만, 이 특정 예에서는 사람의 무게가 0파운드일 수 없기 때문에 b _0을 해석하는 것은 의미가 없습니다.

_b1 = 0.2001 . 이는 x 가 1단위 증가하면 y 가 0.2001단위 증가한다는 의미입니다. 이 경우 무게가 1파운드 증가하면 높이가 0.2001인치 증가합니다.

최소 제곱 회귀선을 사용하는 방법

이 최소 제곱 회귀선을 사용하면 다음과 같은 질문에 답할 수 있습니다.

몸무게가 170파운드인 사람의 키는 얼마나 됩니까?

이 질문에 대답하려면 x에 대한 회귀선에 170을 삽입하고 y에 대해 풀면 됩니다.

ŷ = 32.7830 + 0.2001(170) = 66.8인치

몸무게가 150파운드인 사람의 키는 얼마나 됩니까?

이 질문에 답하기 위해 x에 대한 회귀선에 150을 삽입하고 y에 대해 풀 수 있습니다.

ŷ = 32.7830 + 0.2001(150) = 62.798인치

주의: 이와 같은 질문에 답하기 위해 회귀 방정식을 사용할 때는 데이터 세트의 예측 변수 범위 내에 있는 예측 변수의 값만 사용해야 합니다. 최소 제곱 회귀선을 생성하는 데 사용한 원점입니다. 예를 들어 데이터 세트의 무게 범위는 140~212파운드입니다. 따라서 체중이 140~212파운드 사이일 때 예상 키에 대한 질문에 답하는 것이 합리적입니다.

결정계수

최소 제곱 회귀선이 데이터에 얼마나 잘 맞는지 측정하는 한 가지 방법은 R ² 로 표시되는 결정 계수를 사용하는 것입니다.

결정 계수는 예측 변수로 설명할 수 있는 반응 변수의 분산 비율입니다.

결정 계수는 0에서 1까지 다양합니다. 값이 0이면 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다. 값 1은 반응 변수가 예측 변수에 의해 오류 없이 완벽하게 설명될 수 있음을 나타냅니다.

0과 1 사이의 R ^{2 는} 반응 변수가 예측 변수에 의해 설명될 수 있는 정도를 나타냅니다. 예를 들어, R ² 0.2는 반응 변수의 분산 중 20%가 예측 변수에 의해 설명될 수 있음을 나타냅니다. R ² 0.77은 반응 변수의 분산 중 77%가 예측 변수에 의해 설명될 수 있음을 나타냅니다.

이전 결과에서 우리는 0.9311의 R ^{2 를} 얻었습니다. 이는 키 변동성의 93.11%가 체중 예측 변수에 의해 설명될 수 있음을 나타냅니다.

선형 회귀의 결정 계수

이는 체중이 키를 나타내는 매우 좋은 지표임을 말해줍니다.

선형 회귀 가정

선형 회귀 모델의 결과가 유효하고 신뢰할 수 있으려면 다음 네 가지 가정이 충족되는지 확인해야 합니다.

1. 선형 관계: 독립 변수 x와 종속 변수 y 사이에는 선형 관계가 있습니다.

2. 독립성: 잔차는 독립입니다. 특히 시계열 데이터의 연속 잔차 간에는 상관관계가 없습니다.

3. 동분산성: 잔차는 x의 각 수준에서 일정한 분산을 갖습니다.

4. 정규성: 모델 잔차가 정규 분포를 따릅니다.

이러한 가정 중 하나 이상이 충족되지 않으면 선형 회귀 결과가 신뢰할 수 없거나 오해의 소지가 있을 수 있습니다.

각 가정에 대한 설명, 가정이 충족되는지 확인하는 방법, 가정이 충족되지 않는 경우 수행할 작업은 이 문서를 참조하세요.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기