Rmse(제곱평균제곱근 오차)를 해석하는 방법


회귀 분석은 하나 이상의 예측 변수와 반응 변수 사이의 관계를 이해하는 데 사용할 수 있는 기술입니다.

회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하는 한 가지 방법은 평균 제곱 오차를 계산하는 것입니다. 이는 모델의 예측 값과 데이터 세트의 실제 값 사이의 평균 거리를 알려주는 지표입니다.

RMSE가 낮을수록 특정 모델이 데이터 세트에 더 잘 “적합”될 수 있습니다.

종종 RMSE로 약칭되는 평균 제곱 오차를 찾는 공식은 다음과 같습니다.

RMSE =Σ(P i – O i ) 2 / n

금:

  • Σ는 ‘합’을 의미하는 화려한 기호입니다.
  • Pi는 데이터 세트의 i번째 관측치에 대한 예측 값입니다.
  • O i 는 데이터세트의 i번째 관측치에 대한 관측값입니다.
  • n은 표본 크기입니다.

다음 예에서는 특정 회귀 모델에 대한 RMSE를 해석하는 방법을 보여줍니다.

예: 회귀 모델에 대한 RMSE를 해석하는 방법

특정 대학 입학 시험에서 학생들의 “시험 성적”을 예측하기 위해 “공부한 시간”을 사용하는 회귀 모델을 구축한다고 가정해 보겠습니다.

우리는 15명의 학생에 대해 다음 데이터를 수집합니다.

그런 다음 통계 소프트웨어(예: Excel, SPSS, R, Python) 등을 사용합니다. 다음과 같은 적합 회귀 모델을 찾으려면:

시험 점수 = 75.95 + 3.08*(공부한 시간)

그런 다음 이 방정식을 사용하여 각 학생이 공부한 시간을 기준으로 각 학생의 시험 점수를 예측할 수 있습니다.

그런 다음 각 예상 시험 점수와 실제 시험 점수 간의 제곱 차이를 계산할 수 있습니다. 그런 다음 이러한 차이의 평균의 제곱근을 구할 수 있습니다.

이 회귀 모델의 RMSE는 5.681 로 나타났습니다.

회귀 모델의 잔차는 관측된 데이터 값과 모델 예측 값 간의 차이라는 점을 기억하세요.

잔차 = (P i – O i )

  • Pi는 데이터 세트의 i번째 관측치에 대한 예측 값입니다.
  • O i 는 데이터세트의 i번째 관측치에 대한 관측값입니다.

회귀 모델의 RMSE는 다음과 같이 계산됩니다.

RMSE =Σ(P i – O i ) 2 / n

이는 RMSE가 잔차 분산의 제곱근을 나타냄을 의미합니다.

이는 관찰된 데이터 값과 예측된 데이터 값 사이의 평균 거리에 대한 아이디어를 제공하므로 알아두면 유용한 값입니다.

이는 모델의 예측 변수에 의해 응답 변수의 분산이 얼마나 설명될 수 있는지 알려주는 모델의 R-제곱 과 대조됩니다.

다양한 모델의 RMSE 값 비교

RMSE는 다양한 회귀 모델의 적합성을 비교하는 데 특히 유용합니다.

예를 들어, 학생들의 시험 점수를 예측하기 위해 회귀 모델을 구축하고 여러 잠재적 모델 중에서 가장 좋은 모델을 찾고 싶다고 가정해 보겠습니다.

세 가지 다른 회귀 모델을 적합하고 해당 RMSE 값을 찾는다고 가정합니다.

  • 모델 1의 RMSE: 14.5
  • 모델 2의 RMSE: 16.7
  • 모델 3의 RMSE: 9.8

모델 3은 RMSE가 가장 낮습니다. 이는 세 가지 잠재적 모델 중에서 데이터 세트를 가장 잘 맞출 수 있음을 나타냅니다.

추가 리소스

RMSE 계산기
Excel에서 RMSE를 계산하는 방법
R에서 RMSE를 계산하는 방법
Python에서 RMSE를 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다