R에서 rmse를 계산하는 방법
RMSE(Root Mean Square Error)는 회귀 분석에서 예측된 값이 관측된 값과 평균적으로 얼마나 떨어져 있는지 알려주는 척도입니다. 다음과 같이 계산됩니다.
RMSE = √[ Σ(P i – O i ) 2 / n ]
금:
- Σ는 ‘합’을 의미하는 화려한 기호입니다.
- Pi는 데이터 세트의 i번째 관측치에 대한 예측 값입니다.
- O i 는 데이터세트의 i번째 관측치에 대한 관측값입니다.
- n은 표본 크기입니다.
이 튜토리얼에서는 R에서 RMSE를 계산하는 데 사용할 수 있는 두 가지 방법을 설명합니다.
방법 1: 자신만의 함수 작성
실제 데이터 값이 포함된 열과 예측 데이터 값이 포함된 열이 있는 데이터세트가 있다고 가정합니다.
#create dataset data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24), predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23)) #view dataset data actual predicted 1 34 37 2 37 40 3 44 46 4 47 44 5 48 46 6 48 50 7 46 45 8 43 44 9 32 34 10 27 30 11 26 22 12 24 23
RMSE를 계산하려면 다음 함수를 사용할 수 있습니다.
#calculate RMSE
sqrt(mean((data$actual - data$predicted)^2))
[1] 2.43242
평균 제곱 오차는 2.43242 입니다.
방법 2: 패키지 사용
다음 구문을 사용하는 Metrics 패키지의 rmse() 함수를 사용하여 동일한 데이터 세트에 대한 RMSE를 계산할 수도 있습니다.
rmse(실제, 계획)
금:
- 실수: 실제 값
- 예측: 예측 값
예제에서 사용할 구문은 다음과 같습니다.
#load Metrics package library(Metrics) calculate RMSE rmse(data$actual, data$predicted) [1] 2.43242
평균 제곱 오차는 2.43242 이며 이는 이전에 자체 함수를 사용하여 계산한 것과 일치합니다.
RMSE를 해석하는 방법
RMSE는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 확인하는 유용한 방법입니다.
RMSE가 클수록 예측값과 관측값 간의 차이가 커집니다. 즉, 회귀 모델이 데이터에 더 잘 맞는다는 의미입니다. 반대로, RMSE가 작을수록 모델이 데이터에 더 잘 적합할 수 있습니다.
두 가지 모델의 RMSE를 비교하여 어떤 모델이 데이터에 가장 적합한지 확인하는 것이 특히 유용할 수 있습니다.