R에서 결정계수(r제곱)를 찾는 방법


결정계수 (일반적으로 R 2 로 표시됨)는 회귀 모델에서 설명 변수로 설명할 수 있는 응답 변수 의 분산 비율입니다.

이 튜토리얼에서는 R의 회귀 모델에서 R2를 찾고 해석하는 방법에 대한 예를 제공합니다.

관련 항목: 좋은 R 제곱 값이란 무엇입니까?

예: R에서 R-제곱 찾기 및 해석

15명의 학생에 대해 공부한 시간, 응시한 준비 시험, 받은 시험 점수에 대한 데이터가 포함된 다음 데이터세트가 있다고 가정합니다.

 #create data frame
df <- data.frame(hours=c(1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4, 3, 6, 5, 3),
                 prep_exams=c(1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4, 3, 2, 4, 4),
                 score=c(76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90, 75, 96, 90, 82))

#view first six rows of data frame
head(df)

  hours prep_exams score
1 1 1 76
2 2 3 78
3 2 3 85
4 4 5 88
5 2 2 72
6 1 2 69

다음 코드는 다중 선형 회귀 모델을 이 데이터 세트에 맞추고 모델 출력을 R에 표시하는 방법을 보여줍니다.

 #fit regression model
model <- lm(score~hours+prep_exams, data=df)

#view model summary
summary(model)

Call:
lm(formula = score ~ hours + prep_exams, data = df)

Residuals:
    Min 1Q Median 3Q Max 
-7.9896 -2.5514 0.3079 3.3370 7.0352 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 71.8078 3.5222 20.387 1.12e-10 ***
hours 5.0247 0.8964 5.606 0.000115 ***
prep_exams -1.2975 0.9689 -1.339 0.205339    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.944 on 12 degrees of freedom
Multiple R-squared: 0.7237, Adjusted R-squared: 0.6776 
F-statistic: 15.71 on 2 and 12 DF, p-value: 0.0004454

모델의 R-제곱(출력 맨 아래에 표시됨)은 0.7237 로 나타납니다.

이는 시험 점수 변동의 72.37%가 공부 시간과 응시한 연습 시험 횟수로 설명될 수 있음을 의미합니다.

다음 구문을 사용하여 이 값에 액세스할 수도 있습니다.

 summary(model)$r.squared

[1] 0.7236545

R 제곱 값을 해석하는 방법

R 제곱 값은 항상 0과 1 사이입니다.

값이 1이면 설명변수가 반응변수의 분산을 완벽하게 설명할 수 있음을 나타내고, 값이 0이면 설명변수가 반응변수의 분산을 설명하는 능력이 없음을 나타냅니다.

일반적으로 회귀 모델의 R-제곱 값이 클수록 설명 변수가 응답 변수의 값을 더 잘 예측할 수 있습니다.

특정 R-제곱 값이 특정 회귀 모델에 대해 “좋은” 것으로 간주되는지 여부를 결정하는 방법에 대한 자세한 내용은 이 기사를 확인하세요.

관련 항목: R에서 조정된 R 제곱을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다