R에서 회귀 출력을 해석하는 방법

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

R에서 선형 회귀 모델을 맞추려면 lm() 명령을 사용할 수 있습니다.

회귀 모델의 출력을 표시하려면 summary() 명령을 사용할 수 있습니다.

이 튜토리얼에서는 R에서 회귀 출력의 각 값을 해석하는 방법을 설명합니다.

예: R에서 회귀 출력 해석

다음 코드는 예측 변수로 hp , drat 및 wt 를 사용하고 응답 변수로 mpg 를 사용하여 통합 mtcars 데이터세트에 다중 선형 회귀 모델을 맞추는 방법을 보여줍니다.

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

출력의 각 값을 해석하는 방법은 다음과 같습니다.

부르다

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

이 섹션에서는 회귀 모델에서 사용한 공식을 상기시켜 줍니다. mpg를 응답 변수로 사용하고 hp , drat 및 wt를 예측 변수로 사용했음을 알 수 있습니다. 각 변수는 mtcars 라는 데이터 세트에서 나왔습니다.

잔여물

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078

이 섹션에는 회귀 모델의 잔차 분포 요약이 표시됩니다. 잔차는 회귀 모델의 관측값과 예측값 간의 차이입니다.

최소 잔차는 -3.3598 , 중앙값 잔차는 -0.5099 , 최대 잔차는 5.7078 이었습니다.

계수

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

이 섹션에는 회귀 모델의 추정 계수가 표시됩니다. 이러한 계수를 사용하여 다음과 같은 추정 회귀 방정식을 구성할 수 있습니다.

mpg = 29.39 – 0.03*hp + 1.62*drat – 3.23*중량

각 예측 변수에 대해 다음 값을 얻습니다.

추정: 추정된 계수입니다. 이는 다른 모든 예측 변수가 일정하게 유지된다는 가정 하에 예측 변수의 1단위 증가와 관련된 반응 변수의 평균 증가를 알려줍니다.

기준. Error : 계수의 표준오차이다. 이는 계수 추정의 불확실성을 측정한 것입니다.

t-값: (추정치) / (표준 오차)로 계산되는 예측 변수에 대한 t-통계량입니다.

Pr(>|t|): t 통계에 해당하는 p 값입니다. 이 값이 특정 알파 수준(예: 0.05)보다 낮으면 예측 변수가 통계적으로 유의하다고 합니다.

이 회귀 모델에서 어떤 예측 변수가 유의미한지 결정하기 위해 α = 0.05의 알파 수준을 사용했다면 hp 와 wt는 통계적으로 유의미한 예측 변수이고 drat 는 그렇지 않다고 말할 수 있습니다.

모델 적합성 평가

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

이 마지막 섹션에는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하는 데 도움이 되는 다양한 숫자가 표시됩니다.

잔여 표준 오차: 관측된 값과 회귀선 사이의 평균 거리를 알려줍니다. 값이 작을수록 회귀 모델이 데이터를 더 잘 적합할 수 있습니다.

자유도는 nk-1로 계산됩니다. 여기서 n은 총 관측치 수이고 k는 예측 변수 수입니다. 이 예에서 mtcars에는 32개의 관측치가 있고 회귀 모델에 3개의 예측 변수를 사용했으므로 자유도는 32 – 3 – 1 = 28입니다.

다중 R-제곱: 이를 결정 계수라고 합니다. 이는 반응 변수 의 분산 중 어느 정도가 예측 변수에 의해 설명될 수 있는지 알려줍니다.

이 값의 범위는 0부터 1까지입니다. 1에 가까울수록 예측변수가 반응변수의 값을 더 많이 예측할 수 있다는 의미입니다.

조정된 R-제곱: 이는 모델의 예측 변수 수를 기반으로 조정된 R-제곱의 수정된 버전입니다. 항상 R 제곱보다 작습니다.

조정된 R-제곱은 다양한 수의 예측 변수를 사용하는 다양한 회귀 모델의 적합성을 비교하는 데 유용할 수 있습니다.

F-통계량: 회귀 모델이 독립 변수가 없는 모델보다 데이터에 더 잘 맞는지 여부를 나타냅니다. 기본적으로 회귀 모델 전체가 유용한지 여부를 테스트합니다.

p-값: F 통계에 해당하는 p-값입니다. 이 값이 특정 유의 수준(예: 0.05)보다 낮으면 회귀 모델은 예측 변수가 없는 모델보다 데이터에 더 잘 맞는 것입니다.

회귀 모델을 구축할 때 이 p-값이 특정 유의 수준보다 낮기를 바랍니다. 이는 예측 변수가 응답 변수의 값을 예측하는 데 실제로 유용하다는 것을 나타내기 때문입니다.

추가 리소스

R에서 단순 선형 회귀를 수행하는 방법
R에서 다중 선형 회귀를 수행하는 방법
좋은 R 제곱 값이란 무엇입니까?

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예: R에서 회귀 출력 해석

부르다

잔여물

계수

모델 적합성 평가

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다