통계에서 예측오차란 무엇인가요? (정의 및 예)


통계에서 예측 오류는 특정 모델에서 예측한 값과 실제 값의 차이를 의미합니다.

예측 오류는 종종 두 가지 맥락에서 사용됩니다.

1. 선형 회귀: 연속 응답 변수의 값을 예측하는 데 사용됩니다.

우리는 일반적으로 RMSE (평균 제곱근 오차)라는 측정항목을 사용하여 선형 회귀 모델의 예측 오차를 측정합니다.

다음과 같이 계산됩니다.

RMSE = √ Σ(ŷ i – y i ) 2 / n

금:

  • Σ는 ‘합’을 의미하는 기호입니다.
  • ŷ i 는 i 번째 관측치에 대한 예측값입니다.
  • y ii번째 관측치에 대한 관측값입니다.
  • n은 표본 크기입니다.

2. 로지스틱 회귀: 이진 반응 변수의 값을 예측하는 데 사용됩니다.

로지스틱 회귀 모델의 예측 오류를 측정하는 일반적인 방법은 총 분류 오류율이라는 측정항목을 사용하는 것입니다.

다음과 같이 계산됩니다.

총 오분류율 = (# 잘못된 예측 / # 총 예측)

오분류율 값이 낮을수록 모델이 반응 변수의 결과를 더 잘 예측할 수 있습니다.

다음 예에서는 실제로 선형 회귀 모델과 로지스틱 회귀 모델의 예측 오차를 계산하는 방법을 보여줍니다.

예시 1: 선형 회귀의 예측 오류 계산

농구 경기에서 10명의 선수가 득점할 점수를 예측하기 위해 회귀 모델을 사용한다고 가정해 보겠습니다.

다음 표는 플레이어가 획득한 실제 점수와 비교하여 모델에서 예측한 점수를 보여줍니다.

RMSE(평균 제곱근 오차)는 다음과 같이 계산됩니다.

  • RMSE = √ Σ(ŷ i – y i ) 2 / n
  • RMSE = √(((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
  • RMSE = 4

평균 제곱 오차는 4 입니다. 이는 예상 득점과 실제 득점 사이의 평균 편차가 4임을 나타냅니다.

관련 항목: 좋은 RMSE 값은 무엇입니까?

예시 2: 로지스틱 회귀의 예측 오류 계산

10명의 대학 농구 선수가 NBA에 드래프트될지 여부를 예측하기 위해 로지스틱 회귀 모델을 사용한다고 가정해 보겠습니다.

다음 표는 각 플레이어의 예상 결과와 실제 결과를 보여줍니다(1 = 드래프트됨, 0 = 드래프트되지 않음).

총 오분류율은 다음과 같이 계산됩니다.

  • 총 오분류율 = (# 잘못된 예측 / # 총 예측)
  • 총 분류 오류율 = 4/10
  • 총 오분류율 = 40%

총 분류 오류율은 40% 입니다.

이 값은 상당히 높으며, 이는 모델이 선수의 드래프트 여부를 잘 예측하지 못하고 있음을 나타냅니다.

추가 리소스

다음 자습서에서는 다양한 유형의 회귀 방법을 소개합니다.

단순 선형 회귀 소개
다중 선형 회귀 소개
로지스틱 회귀 소개

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다