Rmse와 r-제곱: 어떤 측정항목을 사용해야 합니까?

에 의해 벤자민 앤더슨 7월 24, 2023 가이드 댓글 0개

회귀 모델은 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용됩니다.

회귀 모델을 적합시킬 때마다 모델이 데이터에 얼마나 잘 맞는지 이해하고 싶습니다. 즉, 모델이 예측 변수의 값을 사용하여 응답 변수 의 값을 얼마나 잘 예측할 수 있습니까?

통계학자들이 모델이 데이터 세트에 얼마나 잘 맞는지를 정량화하기 위해 자주 사용하는 두 가지 지표는 RMSE(제곱 평균 오차 제곱근)와 R 제곱( ^R2 )이며, 이는 다음과 같이 계산됩니다.

RMSE : 예측값이 데이터 세트의 관측값과 평균적으로 얼마나 떨어져 있는지 알려주는 지표입니다. RMSE가 낮을수록 모델이 데이터 세트에 더 잘 맞는 것입니다.

다음과 같이 계산됩니다.

RMSE = √ Σ(P _i – O _i ) ² / n

금:

R ² : 회귀 모델의 반응 변수에서 얼마나 많은 분산이 예측 변수에 의해 설명될 수 있는지 알려주는 측정항목입니다. 이 값은 0과 1 사이입니다. R ² 값이 높을수록 모델이 데이터 집합에 더 잘 맞는 것입니다.

다음과 같이 계산됩니다.

^R2 = 1 – (RSS/TSS)

금:

데이터 세트에 대한 모델의 적합성을 평가할 때 RMSE 값과 R ² 값을 모두 계산하는 것이 유용합니다. 각 측정 항목이 서로 다른 내용을 알려주기 때문입니다.

한편, RMSE는 회귀 모델에 의해 예측된 값과 실제 값 사이의 일반적인 거리를 알려줍니다.

반면 R ² 는 예측 변수가 응답 변수의 변동을 어느 정도 설명할 수 있는지 알려줍니다.

예를 들어, 특정 도시의 주택에 대한 정보를 표시하는 다음 데이터세트가 있다고 가정합니다.

이제 주택 가격을 예측하기 위해 면적, 욕실 수, 침실 수를 사용한다고 가정해 보겠습니다.

다음 회귀 모델을 적용할 수 있습니다.

가격 = β ₀ + β ₁ (제곱피트) + β ₂ (욕실 #개) + β ₃ (침실 #개)

이제 이 모델을 적합시킨 후 다음 측정항목을 계산하여 모델의 적합도를 평가한다고 가정합니다.

RMSE 값은 모델의 예상 주택 가격과 실제 주택 가격 간의 평균 차이가 $14,342임을 알려줍니다.

R ² 값은 모델의 예측 변수(제곱피트, 욕실 수, 침실 수)가 주택 가격 변동의 85.6%를 설명할 수 있음을 나타냅니다.

이러한 값이 “좋은”지 여부를 확인하기 위해 이러한 측정값을 대체 모델과 비교할 수 있습니다.

예를 들어, 다양한 예측 변수 세트를 사용하는 또 다른 회귀 모델을 적합하고 해당 모델에 대해 다음 측정항목을 계산한다고 가정합니다.

이 모델의 RMSE 값이 이전 모델보다 높다는 것을 알 수 있습니다. 또한, 이 모델의 R ² 값이 이전 모델에 비해 낮아진 것을 알 수 있다. 이는 이 모델이 이전 모델보다 데이터에 덜 적합하다는 것을 알려줍니다.

이 기사에서 제기된 주요 사항은 다음과 같습니다.

RMSE와 R ² 는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지를 정량화합니다.
RMSE는 회귀 모델이 절대값으로 응답 변수의 값을 얼마나 잘 예측할 수 있는지 알려주고, R ² 는 모델이 백분율로 응답 변수의 값을 얼마나 잘 예측할 수 있는지 알려줍니다.
각 지표는 유용한 정보를 제공하므로 특정 모델에 대해 RMSE와 ^R2를 모두 계산하는 것이 유용합니다.

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기