Rmse와 r-제곱: 어떤 측정항목을 사용해야 합니까?
회귀 모델은 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용됩니다.
회귀 모델을 적합시킬 때마다 모델이 데이터에 얼마나 잘 맞는지 이해하고 싶습니다. 즉, 모델이 예측 변수의 값을 사용하여 응답 변수 의 값을 얼마나 잘 예측할 수 있습니까?
통계학자들이 모델이 데이터 세트에 얼마나 잘 맞는지를 정량화하기 위해 자주 사용하는 두 가지 지표는 RMSE(제곱 평균 오차 제곱근)와 R 제곱( R2 )이며, 이는 다음과 같이 계산됩니다.
RMSE : 예측값이 데이터 세트의 관측값과 평균적으로 얼마나 떨어져 있는지 알려주는 지표입니다. RMSE가 낮을수록 모델이 데이터 세트에 더 잘 맞는 것입니다.
다음과 같이 계산됩니다.
RMSE = √ Σ(P i – O i ) 2 / n
금:
- Σ는 ‘합’을 의미하는 기호입니다.
- Pi는 i 번째 관측치에 대한 예측값입니다.
- O i 는 i번째 관측치에 대한 관측값입니다.
- n은 표본 크기입니다.
R 2 : 회귀 모델의 반응 변수에서 얼마나 많은 분산이 예측 변수에 의해 설명될 수 있는지 알려주는 측정항목입니다. 이 값은 0과 1 사이입니다. R 2 값이 높을수록 모델이 데이터 집합에 더 잘 맞는 것입니다.
다음과 같이 계산됩니다.
R2 = 1 – (RSS/TSS)
금:
- RSS는 잔차 제곱의 합을 나타냅니다.
- TSS는 총 제곱합을 나타냅니다.
RMSE 대 R 2 : 어떤 지표를 사용해야 합니까?
데이터 세트에 대한 모델의 적합성을 평가할 때 RMSE 값과 R 2 값을 모두 계산하는 것이 유용합니다. 각 측정 항목이 서로 다른 내용을 알려주기 때문입니다.
한편, RMSE는 회귀 모델에 의해 예측된 값과 실제 값 사이의 일반적인 거리를 알려줍니다.
반면 R 2 는 예측 변수가 응답 변수의 변동을 어느 정도 설명할 수 있는지 알려줍니다.
예를 들어, 특정 도시의 주택에 대한 정보를 표시하는 다음 데이터세트가 있다고 가정합니다.
이제 주택 가격을 예측하기 위해 면적, 욕실 수, 침실 수를 사용한다고 가정해 보겠습니다.
다음 회귀 모델을 적용할 수 있습니다.
가격 = β 0 + β 1 (제곱피트) + β 2 (욕실 #개) + β 3 (침실 #개)
이제 이 모델을 적합시킨 후 다음 측정항목을 계산하여 모델의 적합도를 평가한다고 가정합니다.
- RMSE : 14.342
- R2 : 0.856
RMSE 값은 모델의 예상 주택 가격과 실제 주택 가격 간의 평균 차이가 $14,342임을 알려줍니다.
R 2 값은 모델의 예측 변수(제곱피트, 욕실 수, 침실 수)가 주택 가격 변동의 85.6%를 설명할 수 있음을 나타냅니다.
이러한 값이 “좋은”지 여부를 확인하기 위해 이러한 측정값을 대체 모델과 비교할 수 있습니다.
예를 들어, 다양한 예측 변수 세트를 사용하는 또 다른 회귀 모델을 적합하고 해당 모델에 대해 다음 측정항목을 계산한다고 가정합니다.
- RMSE : 19.355
- R2 : 0.765
이 모델의 RMSE 값이 이전 모델보다 높다는 것을 알 수 있습니다. 또한, 이 모델의 R 2 값이 이전 모델에 비해 낮아진 것을 알 수 있다. 이는 이 모델이 이전 모델보다 데이터에 덜 적합하다는 것을 알려줍니다.
요약
이 기사에서 제기된 주요 사항은 다음과 같습니다.
- RMSE와 R 2 는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지를 정량화합니다.
- RMSE는 회귀 모델이 절대값으로 응답 변수의 값을 얼마나 잘 예측할 수 있는지 알려주고, R 2 는 모델이 백분율로 응답 변수의 값을 얼마나 잘 예측할 수 있는지 알려줍니다.
- 각 지표는 유용한 정보를 제공하므로 특정 모델에 대해 RMSE와 R2를 모두 계산하는 것이 유용합니다.