회귀 분석에서 잔차를 계산하는 방법


단순 선형 회귀는 두 변수 x와 y 사이의 관계를 이해하는 데 사용할 수 있는 통계 방법입니다.

변수 x 는 예측 변수로 알려져 있습니다. 다른 변수 y응답 변수 로 알려져 있습니다.

예를 들어, 7명의 체중과 키가 포함된 다음 데이터 세트가 있다고 가정합니다.

단순 선형 회귀

체중을 예측 변수로 설정하고 키를 반응 변수로 설정합니다.

x축에 가중치를, y축에 높이를 지정하여 산점도 를 사용하여 이 두 변수를 그래프로 표시하면 다음과 같습니다.

산점도에서 우리는 체중이 증가함에 따라 키도 증가하는 경향이 있음을 분명히 볼 수 있습니다. 그러나 실제로 체중과 키 사이의 관계를 정량화 하려면 선형 회귀를 사용해야 합니다.

선형 회귀를 사용하면 데이터에 가장 잘 맞는 선을 찾을 수 있습니다.

이 최적선의 공식은 다음과 같습니다.

ŷ = b0 + b1x

여기서 ŷ는 반응 변수의 예측 값이고, b 0 은 절편이고, b 1 은 회귀 계수이고, x는 예측 변수의 값입니다.

이 예에서 가장 적합한 선은 다음과 같습니다.

크기 = 32.783 + 0.2001*(무게)

잔차 계산 방법

산점도의 데이터 포인트가 항상 가장 적합한 선과 정확히 일치하는 것은 아닙니다.

데이터 포인트와 선 사이의 이러한 차이를 잔차 라고 합니다. 각 데이터 포인트에 대해 실제 값과 최적선의 예측 값 사이의 차이를 취하여 해당 포인트의 잔차를 계산할 수 있습니다.

예 1: 잔차 계산

예를 들어, 데이터세트에 있는 7명의 개인의 체중과 키를 기억해 보세요.

단순 선형 회귀

첫 번째 사람의 몸무게는 140 파운드입니다. 그리고 높이는 60 인치입니다.

이 개인의 예상 키를 알아내기 위해 가장 적합한 방정식의 선에 체중을 연결하면 됩니다.

크기 = 32.783 + 0.2001*(무게)

따라서 이 개인의 예상 크기는 다음과 같습니다.

높이 = 32.783 + 0.2001*(140)

높이 = 60.797인치

따라서 이 데이터 포인트의 잔차는 60 – 60.797 = -0.797 입니다.

예 2: 잔차 계산

위에서 사용한 것과 동일한 프로세스를 사용하여 각 데이터 포인트의 잔차를 계산할 수 있습니다. 예를 들어 데이터 세트에서 두 번째 개인에 대한 잔차를 계산해 보겠습니다.

단순 선형 회귀

두 번째 사람의 몸무게는 155 파운드입니다. 높이는 62 인치입니다.

이 개인의 예상 키를 알아내기 위해 가장 적합한 방정식의 선에 체중을 연결하면 됩니다.

크기 = 32.783 + 0.2001*(무게)

따라서 이 개인의 예상 크기는 다음과 같습니다.

높이 = 32.783 + 0.2001*(155)

높이 = 63.7985인치

따라서 이 데이터 포인트의 잔차는 62 – 63.7985 = -1.7985 입니다.

모든 잔차 계산

이전 두 예제와 동일한 방법을 사용하여 각 데이터 포인트에 대한 잔차를 계산할 수 있습니다.

일부 잔차는 양수이고 일부는 음수입니다. 잔차를 모두 더하면 그 합은 0이 됩니다.

이는 선형 회귀가 잔차의 총 제곱을 최소화하는 선을 찾기 때문입니다. 이것이 바로 선이 데이터를 완벽하게 통과하는 이유이며 일부 데이터 점은 선 위에 있고 다른 데이터 점은 선 아래에 있습니다.

잔여물 보기

잔차는 단순히 데이터의 실제 값과 가장 적합한 회귀선에 의해 예측된 값 사이의 거리라는 점을 기억하십시오. 포인트 클라우드에서 이러한 거리가 시각적으로 어떻게 보이는지는 다음과 같습니다.

일부 잔차는 다른 잔차보다 큽니다. 또한 이전에 언급한 것처럼 일부 잔차는 양수이고 일부는 음수입니다.

잔여 경로 만들기

잔차 계산의 요점은 회귀선이 데이터에 얼마나 잘 맞는지 확인하는 것입니다.

잔차가 클수록 회귀선이 데이터에 잘 맞지 않음을 나타냅니다. 즉, 실제 데이터 포인트가 회귀선에 근접하지 않습니다.

잔차가 작을수록 회귀선이 데이터에 더 잘 맞는다는 것을 나타냅니다. 즉, 실제 데이터 포인트가 회귀선에 더 가깝습니다.

모든 잔차를 한 번에 시각화하는 데 유용한 유형의 도표는 잔차 도표입니다. 잔차 도표는 회귀 모델에 대한 잔차 대비 예측 값을 표시하는 도표 유형입니다.

이러한 유형의 플롯은 선형 회귀 모델이 주어진 데이터 세트에 적합한지 여부를 평가하고 잔차 이분산성을 확인하는 데 자주 사용됩니다.

Excel에서 단순 선형 회귀 모델에 대한 잔차 그림을 만드는 방법을 알아보려면 이 튜토리얼을 확인하세요.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다