단순 선형 회귀 소개
단순 선형 회귀는 두 변수 x와 y 사이의 관계를 이해하는 데 사용할 수 있는 통계 방법입니다.
변수 x 는 예측 변수 라고 합니다.
다른 변수 y 는 응답 변수 로 알려져 있습니다.
예를 들어, 7명의 체중과 키가 포함된 다음 데이터 세트가 있다고 가정합니다.
체중을 예측 변수로 설정하고 키를 반응 변수로 설정합니다.
x축에 가중치를, y축에 높이를 지정하여 산점도를 사용하여 이 두 변수를 그래프로 표시하면 다음과 같습니다.
체중과 키의 관계를 이해하고 싶다고 가정해 보겠습니다. 산점도에서 우리는 체중이 증가함에 따라 키도 증가하는 경향이 있음을 분명히 볼 수 있습니다. 그러나 실제로 체중과 키 사이의 관계를 정량화 하려면 선형 회귀를 사용해야 합니다.
선형 회귀를 사용하면 데이터에 가장 잘 맞는 선을 찾을 수 있습니다. 이 선은 최소 제곱 회귀선 으로 알려져 있으며 체중과 키 사이의 관계를 이해하는 데 도움이 될 수 있습니다.
일반적으로 이 선의 방정식을 찾으려면 Microsoft Excel, SPSS 또는 그래프 계산기와 같은 소프트웨어를 사용합니다.
가장 적합한 선의 공식은 다음과 같습니다.
ŷ = b0 + b1x
여기서 ŷ는 반응 변수의 예측 값이고, b 0 은 절편이고, b 1 은 회귀 계수이고, x는 예측 변수의 값입니다.
관련 항목: 실생활에서 선형 회귀를 사용하는 4가지 예
“가장 적합한 라인”을 찾아보세요
이 예에서는 데이터를 통계 선형 회귀 계산기 에 연결하고 Calculate를 누르면 됩니다.
계산기는 자동으로 최소 제곱 회귀선을 찾습니다.
ŷ = 32.7830 + 0.2001x
이전 산점도를 축소하고 그래프에 이 선을 추가하면 다음과 같습니다.
데이터 포인트가 이 선 주위에 어떻게 밀접하게 흩어져 있는지 확인하세요. 실제로 이 최소 제곱 회귀선은 우리가 그릴 수 있는 모든 선 중에서 우리 데이터에 가장 적합한 선입니다.
최소 제곱 회귀선을 해석하는 방법
이 최소 제곱 회귀선을 해석하는 방법은 다음과 같습니다. ŷ = 32.7830 + 0.2001x
b0 = 32.7830 . 이는 예측 변수 체중 이 0파운드일 때 예측 키가 32.7830인치라는 것을 의미합니다. 때로는 b 0 값을 아는 것이 유용할 수 있지만, 이 특정 예에서는 사람의 무게가 0파운드일 수 없기 때문에 b 0을 해석하는 것은 의미가 없습니다.
b1 = 0.2001 . 이는 x 가 1단위 증가하면 y 가 0.2001단위 증가한다는 의미입니다. 이 경우 무게가 1파운드 증가하면 높이가 0.2001인치 증가합니다.
최소 제곱 회귀선을 사용하는 방법
이 최소 제곱 회귀선을 사용하면 다음과 같은 질문에 답할 수 있습니다.
몸무게가 170파운드인 사람의 키는 얼마나 됩니까?
이 질문에 대답하려면 x에 대한 회귀선에 170을 삽입하고 y에 대해 풀면 됩니다.
ŷ = 32.7830 + 0.2001(170) = 66.8인치
몸무게가 150파운드인 사람의 키는 얼마나 됩니까?
이 질문에 답하기 위해 x에 대한 회귀선에 150을 삽입하고 y에 대해 풀 수 있습니다.
ŷ = 32.7830 + 0.2001(150) = 62.798인치
주의: 이와 같은 질문에 답하기 위해 회귀 방정식을 사용할 때는 데이터 세트의 예측 변수 범위 내에 있는 예측 변수의 값만 사용해야 합니다. 최소 제곱 회귀선을 생성하는 데 사용한 원점입니다. 예를 들어 데이터 세트의 무게 범위는 140~212파운드입니다. 따라서 체중이 140~212파운드 사이일 때 예상 키에 대한 질문에 답하는 것이 합리적입니다.
결정계수
최소 제곱 회귀선이 데이터에 얼마나 잘 맞는지 측정하는 한 가지 방법은 R 2 로 표시되는 결정 계수를 사용하는 것입니다.
결정 계수는 예측 변수로 설명할 수 있는 반응 변수의 분산 비율입니다.
결정 계수는 0에서 1까지 다양합니다. 값이 0이면 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다. 값 1은 반응 변수가 예측 변수에 의해 오류 없이 완벽하게 설명될 수 있음을 나타냅니다.
0과 1 사이의 R 2 는 반응 변수가 예측 변수에 의해 설명될 수 있는 정도를 나타냅니다. 예를 들어, R 2 0.2는 반응 변수의 분산 중 20%가 예측 변수에 의해 설명될 수 있음을 나타냅니다. R 2 0.77은 반응 변수의 분산 중 77%가 예측 변수에 의해 설명될 수 있음을 나타냅니다.
이전 결과에서 우리는 0.9311의 R 2 를 얻었습니다. 이는 키 변동성의 93.11%가 체중 예측 변수에 의해 설명될 수 있음을 나타냅니다.
이는 체중이 키를 나타내는 매우 좋은 지표임을 말해줍니다.
선형 회귀 가정
선형 회귀 모델의 결과가 유효하고 신뢰할 수 있으려면 다음 네 가지 가정이 충족되는지 확인해야 합니다.
1. 선형 관계: 독립 변수 x와 종속 변수 y 사이에는 선형 관계가 있습니다.
2. 독립성: 잔차는 독립입니다. 특히 시계열 데이터의 연속 잔차 간에는 상관관계가 없습니다.
3. 동분산성: 잔차는 x의 각 수준에서 일정한 분산을 갖습니다.
4. 정규성: 모델 잔차가 정규 분포를 따릅니다.
이러한 가정 중 하나 이상이 충족되지 않으면 선형 회귀 결과가 신뢰할 수 없거나 오해의 소지가 있을 수 있습니다.
각 가정에 대한 설명, 가정이 충족되는지 확인하는 방법, 가정이 충족되지 않는 경우 수행할 작업은 이 문서를 참조하세요.