R에서 회귀 출력을 해석하는 방법
R에서 선형 회귀 모델을 맞추려면 lm() 명령을 사용할 수 있습니다.
회귀 모델의 출력을 표시하려면 summary() 명령을 사용할 수 있습니다.
이 튜토리얼에서는 R에서 회귀 출력의 각 값을 해석하는 방법을 설명합니다.
예: R에서 회귀 출력 해석
다음 코드는 예측 변수로 hp , drat 및 wt 를 사용하고 응답 변수로 mpg 를 사용하여 통합 mtcars 데이터세트에 다중 선형 회귀 모델을 맞추는 방법을 보여줍니다.
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
출력의 각 값을 해석하는 방법은 다음과 같습니다.
부르다
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
이 섹션에서는 회귀 모델에서 사용한 공식을 상기시켜 줍니다. mpg를 응답 변수로 사용하고 hp , drat 및 wt를 예측 변수로 사용했음을 알 수 있습니다. 각 변수는 mtcars 라는 데이터 세트에서 나왔습니다.
잔여물
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
이 섹션에는 회귀 모델의 잔차 분포 요약이 표시됩니다. 잔차는 회귀 모델의 관측값과 예측값 간의 차이입니다.
최소 잔차는 -3.3598 , 중앙값 잔차는 -0.5099 , 최대 잔차는 5.7078 이었습니다.
계수
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
이 섹션에는 회귀 모델의 추정 계수가 표시됩니다. 이러한 계수를 사용하여 다음과 같은 추정 회귀 방정식을 구성할 수 있습니다.
mpg = 29.39 – 0.03*hp + 1.62*drat – 3.23*중량
각 예측 변수에 대해 다음 값을 얻습니다.
추정: 추정된 계수입니다. 이는 다른 모든 예측 변수가 일정하게 유지된다는 가정 하에 예측 변수의 1단위 증가와 관련된 반응 변수의 평균 증가를 알려줍니다.
기준. Error : 계수의 표준오차이다. 이는 계수 추정의 불확실성을 측정한 것입니다.
t-값: (추정치) / (표준 오차)로 계산되는 예측 변수에 대한 t-통계량입니다.
Pr(>|t|): t 통계에 해당하는 p 값입니다. 이 값이 특정 알파 수준(예: 0.05)보다 낮으면 예측 변수가 통계적으로 유의하다고 합니다.
이 회귀 모델에서 어떤 예측 변수가 유의미한지 결정하기 위해 α = 0.05의 알파 수준을 사용했다면 hp 와 wt는 통계적으로 유의미한 예측 변수이고 drat 는 그렇지 않다고 말할 수 있습니다.
모델 적합성 평가
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
이 마지막 섹션에는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하는 데 도움이 되는 다양한 숫자가 표시됩니다.
잔여 표준 오차: 관측된 값과 회귀선 사이의 평균 거리를 알려줍니다. 값이 작을수록 회귀 모델이 데이터를 더 잘 적합할 수 있습니다.
자유도는 nk-1로 계산됩니다. 여기서 n은 총 관측치 수이고 k는 예측 변수 수입니다. 이 예에서 mtcars에는 32개의 관측치가 있고 회귀 모델에 3개의 예측 변수를 사용했으므로 자유도는 32 – 3 – 1 = 28입니다.
다중 R-제곱: 이를 결정 계수라고 합니다. 이는 반응 변수 의 분산 중 어느 정도가 예측 변수에 의해 설명될 수 있는지 알려줍니다.
이 값의 범위는 0부터 1까지입니다. 1에 가까울수록 예측변수가 반응변수의 값을 더 많이 예측할 수 있다는 의미입니다.
조정된 R-제곱: 이는 모델의 예측 변수 수를 기반으로 조정된 R-제곱의 수정된 버전입니다. 항상 R 제곱보다 작습니다.
조정된 R-제곱은 다양한 수의 예측 변수를 사용하는 다양한 회귀 모델의 적합성을 비교하는 데 유용할 수 있습니다.
F-통계량: 회귀 모델이 독립 변수가 없는 모델보다 데이터에 더 잘 맞는지 여부를 나타냅니다. 기본적으로 회귀 모델 전체가 유용한지 여부를 테스트합니다.
p-값: F 통계에 해당하는 p-값입니다. 이 값이 특정 유의 수준(예: 0.05)보다 낮으면 회귀 모델은 예측 변수가 없는 모델보다 데이터에 더 잘 맞는 것입니다.
회귀 모델을 구축할 때 이 p-값이 특정 유의 수준보다 낮기를 바랍니다. 이는 예측 변수가 응답 변수의 값을 예측하는 데 실제로 유용하다는 것을 나타내기 때문입니다.
추가 리소스
R에서 단순 선형 회귀를 수행하는 방법
R에서 다중 선형 회귀를 수행하는 방법
좋은 R 제곱 값이란 무엇입니까?