좋은 rmse 값은 무엇입니까?


회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하는 한 가지 방법은 평균 제곱 오차를 계산하는 것입니다. 이는 모델의 예측 값과 데이터 세트의 실제 값 사이의 평균 거리를 알려줍니다. 데이터.

종종 RMSE로 약칭되는 평균 제곱 오차를 찾는 공식은 다음과 같습니다.

RMSE =Σ(P i – O i ) 2 / n

금:

  • Σ는 ‘합’을 의미하는 화려한 기호입니다.
  • Pi는 데이터 세트의 i번째 관측치에 대한 예측 값입니다.
  • O i 는 데이터세트의 i번째 관측치에 대한 관측값입니다.
  • n은 표본 크기입니다.

사람들이 자주 묻는 질문은 다음과 같습니다. 좋은 RMSE 값은 무엇입니까?

짧은 대답은 다음과 같습니다 .

RMSE가 낮을수록 특정 모델이 데이터 세트에 더 잘 “적합”될 수 있습니다. 그러나 작업 중인 데이터 세트의 범위는 주어진 RMSE 값이 “낮은”지 여부를 결정하는 데 중요합니다.

예를 들어 다음 시나리오를 고려해보세요.

시나리오 1: 회귀 모델을 사용하여 특정 도시의 주택 가격을 예측하고 싶습니다. 모델의 RMSE 값이 $500라고 가정합니다. 일반적인 주택 가격 범위는 $70,000~$300,000이므로 이 RMSE 값은 매우 낮습니다. 이는 모델이 부동산 가격을 정확하게 예측할 수 있음을 말해줍니다.

시나리오 2: 이제 회귀 모델을 사용하여 특정 도시에서 한 사람이 한 달에 지출할 금액을 예측한다고 가정해 보겠습니다. 모델의 RMSE 값이 $500라고 가정합니다. 일반적인 월별 지출 범위가 $1,500~$4,000인 경우 이 RMSE 값은 상당히 높습니다. 이는 모델이 월별 비용을 매우 정확하게 예측할 수 없음을 나타냅니다.

이러한 간단한 예는 보편적인 “좋은” RMSE 값이 없다는 것을 보여줍니다. 이는 모두 작업 중인 데이터 세트의 값 범위에 따라 다릅니다.

RMSE 값 정규화

특정 RMSE 값이 “좋은”지 더 잘 이해하는 한 가지 방법은 다음 공식을 사용하여 이를 정규화하는 것입니다.

정규화된 RMSE = RMSE / (최대값 – 최소값)

이는 0과 1 사이의 값을 생성하며, 0에 가까울수록 더 적합한 모델을 나타냅니다.

예를 들어 RMSE 값이 $500이고 값 범위가 $70,000~$300,000라고 가정해 보겠습니다. 정규화된 RMSE 값은 다음과 같이 계산됩니다.

  • 정규화된 RMSE = $500 / ($300,000 – $70,000) = 0.002

반대로, RMSE 값이 $500이고 값 범위가 $1,500에서 $4,000 사이라고 가정해 보겠습니다. 정규화된 RMSE 값은 다음과 같이 계산됩니다.

  • 정규화된 RMSE = $500 / ($4,000 – $1,500) = 0.2 .

첫 번째 정규화된 RMSE 값은 훨씬 낮으며, 이는 두 번째 정규화된 RMSE 값에 비해 데이터에 훨씬 더 잘 맞는다는 것을 나타냅니다.

모델 간 RMSE 비교

“좋은” RMSE 값을 나타내기 위해 임의의 숫자를 선택하는 대신 간단히 여러 모델의 RMSE 값을 비교할 수 있습니다.

예를 들어, 부동산 가격을 예측하기 위해 세 가지 다른 회귀 모델을 적용한다고 가정해 보겠습니다. 세 가지 모델의 RMSE 값이 다음과 같다고 가정합니다.

  • 모델 1 RMSE: $550
  • 모델 2 RMSE: $480
  • 모델 3 RMSE: $1,400

모델 2의 RMSE 값이 가장 낮으므로 예측 가격과 실제 가격 간의 평균 거리가 가장 작은 모델 2를 부동산 가격 예측에 가장 적합한 모델로 선택합니다.

추가 리소스

RMSE를 해석하는 방법
Excel에서 RMSE를 계산하는 방법
R에서 RMSE를 계산하는 방법
Python에서 RMSE를 계산하는 방법
RMSE 계산기

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다