R에서 회귀 출력을 해석하는 방법


R에서 선형 회귀 모델을 맞추려면 lm() 명령을 사용할 수 있습니다.

회귀 모델의 출력을 표시하려면 summary() 명령을 사용할 수 있습니다.

이 튜토리얼에서는 R에서 회귀 출력의 각 값을 해석하는 방법을 설명합니다.

예: R에서 회귀 출력 해석

다음 코드는 예측 변수로 hp , dratwt 를 사용하고 응답 변수로 mpg 를 사용하여 통합 mtcars 데이터세트에 다중 선형 회귀 모델을 맞추는 방법을 보여줍니다.

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

출력의 각 값을 해석하는 방법은 다음과 같습니다.

부르다

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

이 섹션에서는 회귀 모델에서 사용한 공식을 상기시켜 줍니다. mpg를 응답 변수로 사용하고 hp , dratwt를 예측 변수로 사용했음을 알 수 있습니다. 각 변수는 mtcars 라는 데이터 세트에서 나왔습니다.

잔여물

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

이 섹션에는 회귀 모델의 잔차 분포 요약이 표시됩니다. 잔차는 회귀 모델의 관측값과 예측값 간의 차이입니다.

최소 잔차는 -3.3598 , 중앙값 잔차는 -0.5099 , 최대 잔차는 5.7078 이었습니다.

계수

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

이 섹션에는 회귀 모델의 추정 계수가 표시됩니다. 이러한 계수를 사용하여 다음과 같은 추정 회귀 방정식을 구성할 수 있습니다.

mpg = 29.39 – 0.03*hp + 1.62*drat – 3.23*중량

각 예측 변수에 대해 다음 값을 얻습니다.

추정: 추정된 계수입니다. 이는 다른 모든 예측 변수가 일정하게 유지된다는 가정 하에 예측 변수의 1단위 증가와 관련된 반응 변수의 평균 증가를 알려줍니다.

기준. Error : 계수의 표준오차이다. 이는 계수 추정의 불확실성을 측정한 것입니다.

t-값: (추정치) / (표준 오차)로 계산되는 예측 변수에 대한 t-통계량입니다.

Pr(>|t|): t 통계에 해당하는 p 값입니다. 이 값이 특정 알파 수준(예: 0.05)보다 낮으면 예측 변수가 통계적으로 유의하다고 합니다.

이 회귀 모델에서 어떤 예측 변수가 유의미한지 결정하기 위해 α = 0.05의 알파 수준을 사용했다면 hpwt는 통계적으로 유의미한 예측 변수이고 drat 는 그렇지 않다고 말할 수 있습니다.

모델 적합성 평가

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

이 마지막 섹션에는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하는 데 도움이 되는 다양한 숫자가 표시됩니다.

잔여 표준 오차: 관측된 값과 회귀선 사이의 평균 거리를 알려줍니다. 값이 작을수록 회귀 모델이 데이터를 더 잘 적합할 수 있습니다.

자유도는 nk-1로 계산됩니다. 여기서 n은 총 관측치 수이고 k는 예측 변수 수입니다. 이 예에서 mtcars에는 32개의 관측치가 있고 회귀 모델에 3개의 예측 변수를 사용했으므로 자유도는 32 – 3 – 1 = 28입니다.

다중 R-제곱: 이를 결정 계수라고 합니다. 이는 반응 변수 의 분산 중 어느 정도가 예측 변수에 의해 설명될 수 있는지 알려줍니다.

이 값의 범위는 0부터 1까지입니다. 1에 가까울수록 예측변수가 반응변수의 값을 더 많이 예측할 수 있다는 의미입니다.

조정된 R-제곱: 이는 모델의 예측 변수 수를 기반으로 조정된 R-제곱의 수정된 버전입니다. 항상 R 제곱보다 작습니다.

조정된 R-제곱은 다양한 수의 예측 변수를 사용하는 다양한 회귀 모델의 적합성을 비교하는 데 유용할 수 있습니다.

F-통계량: 회귀 모델이 독립 변수가 없는 모델보다 데이터에 더 잘 맞는지 여부를 나타냅니다. 기본적으로 회귀 모델 전체가 유용한지 여부를 테스트합니다.

p-값: F 통계에 해당하는 p-값입니다. 이 값이 특정 유의 수준(예: 0.05)보다 낮으면 회귀 모델은 예측 변수가 없는 모델보다 데이터에 더 잘 맞는 것입니다.

회귀 모델을 구축할 때 이 p-값이 특정 유의 수준보다 낮기를 바랍니다. 이는 예측 변수가 응답 변수의 값을 예측하는 데 실제로 유용하다는 것을 나타내기 때문입니다.

추가 리소스

R에서 단순 선형 회귀를 수행하는 방법
R에서 다중 선형 회귀를 수행하는 방법
좋은 R 제곱 값이란 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다