R에서 결정계수(r제곱)를 찾는 방법
결정계수 (일반적으로 R 2 로 표시됨)는 회귀 모델에서 설명 변수로 설명할 수 있는 응답 변수 의 분산 비율입니다.
이 튜토리얼에서는 R의 회귀 모델에서 R2를 찾고 해석하는 방법에 대한 예를 제공합니다.
관련 항목: 좋은 R 제곱 값이란 무엇입니까?
예: R에서 R-제곱 찾기 및 해석
15명의 학생에 대해 공부한 시간, 응시한 준비 시험, 받은 시험 점수에 대한 데이터가 포함된 다음 데이터세트가 있다고 가정합니다.
#create data frame df <- data.frame(hours=c(1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4, 3, 6, 5, 3), prep_exams=c(1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4, 3, 2, 4, 4), score=c(76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90, 75, 96, 90, 82)) #view first six rows of data frame head(df) hours prep_exams score 1 1 1 76 2 2 3 78 3 2 3 85 4 4 5 88 5 2 2 72 6 1 2 69
다음 코드는 다중 선형 회귀 모델을 이 데이터 세트에 맞추고 모델 출력을 R에 표시하는 방법을 보여줍니다.
#fit regression model model <- lm(score~hours+prep_exams, data=df) #view model summary summary(model) Call: lm(formula = score ~ hours + prep_exams, data = df) Residuals: Min 1Q Median 3Q Max -7.9896 -2.5514 0.3079 3.3370 7.0352 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 71.8078 3.5222 20.387 1.12e-10 *** hours 5.0247 0.8964 5.606 0.000115 *** prep_exams -1.2975 0.9689 -1.339 0.205339 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.944 on 12 degrees of freedom Multiple R-squared: 0.7237, Adjusted R-squared: 0.6776 F-statistic: 15.71 on 2 and 12 DF, p-value: 0.0004454
모델의 R-제곱(출력 맨 아래에 표시됨)은 0.7237 로 나타납니다.
이는 시험 점수 변동의 72.37%가 공부 시간과 응시한 연습 시험 횟수로 설명될 수 있음을 의미합니다.
다음 구문을 사용하여 이 값에 액세스할 수도 있습니다.
summary(model)$r.squared [1] 0.7236545
R 제곱 값을 해석하는 방법
R 제곱 값은 항상 0과 1 사이입니다.
값이 1이면 설명변수가 반응변수의 분산을 완벽하게 설명할 수 있음을 나타내고, 값이 0이면 설명변수가 반응변수의 분산을 설명하는 능력이 없음을 나타냅니다.
일반적으로 회귀 모델의 R-제곱 값이 클수록 설명 변수가 응답 변수의 값을 더 잘 예측할 수 있습니다.
특정 R-제곱 값이 특정 회귀 모델에 대해 “좋은” 것으로 간주되는지 여부를 결정하는 방법에 대한 자세한 내용은 이 기사를 확인하세요.
관련 항목: R에서 조정된 R 제곱을 계산하는 방법