회귀 절편에 대한 신뢰 구간을 계산하는 방법

에 의해 벤자민 앤더슨 7월 22, 2023 가이드 댓글 0개

단순 선형 회귀는 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용됩니다.

이 방법은 데이터 집합과 가장 잘 “일치”하는 행을 찾고 다음 형식을 사용합니다.

ŷ = _b0 + _b1x

금:

ŷ : 예상된 반응값
b ₀ : 회귀선의 원점
b ₁ : 회귀선의 기울기
x : 예측변수의 값

우리는 종종 예측 변수의 1단위 증가와 관련된 반응 변수 의 평균 변화를 알려주는 b ₁ 값에 관심이 있습니다.

그러나 드문 경우지만 예측 변수가 0일 때 반응 변수의 평균 값을 알려주는 _b0 값에도 관심이 있습니다.

다음 공식을 사용하여 실제 모집단 상수인 β ₀ 값에 대한 신뢰 구간을 계산할 수 있습니다.

β ₀ 에 대한 신뢰 구간: b ₀ ± t _{α/2, n-2} * se(b ₀ )

다음 예에서는 실제로 절편에 대한 신뢰 구간을 계산하는 방법을 보여줍니다.

예: 회귀 절편에 대한 신뢰 구간

특정 수업의 15명의 학생에 대한 학습 시간을 예측 변수로 사용하고 시험 점수를 응답 변수로 사용하여 간단한 선형 회귀 모델을 적합화한다고 가정합니다.

다음 코드는 R에서 이 단순 선형 회귀 모델을 맞추는 방법을 보여줍니다.

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

결과의 계수 추정치를 사용하여 다음과 같이 적합 단순 선형 회귀 모델을 작성할 수 있습니다.

점수 = 65.334 + 1.982*(공부한 시간)

절편 값은 65.334입니다. 이는 0시간 동안 공부하는 학생의 예상 평균 시험 점수가 65,334점 임을 알려줍니다.

다음 공식을 사용하여 절편에 대한 95% 신뢰 구간을 계산할 수 있습니다.

β ₀ 에 대한 95% CI : b ₀ ± t _{α/2, n-2} * se(b ₀ )
β ₀ 에 대한 95% CI: 65.334 ± t _0.05/2.15-2 * 2.106
_β0 에 대한 95% CI: 65.334 ± 2.1604 * 2.106
β ₀ 에 대한 95% CI: [60.78, 69.88]

우리는 이를 0시간 동안 공부하는 학생들의 실제 평균 시험 점수가 60.78에서 69.88 사이에 있을 것이라고 95% 확신한다는 의미로 해석합니다.

참고 : 우리는 13 자유도의 95% 신뢰 수준에 해당하는 임계 t 값을 찾기 위해 역 t 분포 계산기를 사용했습니다.

회귀 절편에 대한 신뢰 구간 계산 시 주의 사항

실제로 모델 회귀에서 절편 값을 해석하는 것이 일반적으로 의미가 없기 때문에 회귀 절편에 대한 신뢰 구간을 계산하지 않는 경우가 많습니다.

예를 들어, 농구 선수의 키를 예측 변수로 사용하고 게임당 득점 평균을 응답 변수로 사용하는 회귀 모델을 적합하다고 가정해 보겠습니다.

플레이어의 키가 0피트가 되는 것은 불가능하므로 이 모델에서 가로채기를 문자 그대로 해석하는 것은 의미가 없습니다.

예측 변수가 0의 값을 가질 수 없는 이와 같은 시나리오는 셀 수 없이 많습니다. 따라서 모델의 원래 값을 해석하거나 원점에 대한 신뢰 구간을 만드는 것은 의미가 없습니다.

예를 들어 모델에서 다음과 같은 잠재적인 예측 변수를 고려해보세요.

집의 면적
자동차의 길이
사람의 무게

이러한 각 예측 변수는 0 값을 가질 수 없습니다. 따라서 이러한 상황에서 회귀 모델의 출처에 대한 신뢰 구간을 계산하는 것은 의미가 없습니다.

추가 리소스

다음 자습서에서는 선형 회귀에 대한 추가 정보를 제공합니다.

단순 선형 회귀 소개
다중 선형 회귀 소개
회귀표를 읽고 해석하는 방법
회귀 결과를 보고하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예: 회귀 절편에 대한 신뢰 구간

회귀 절편에 대한 신뢰 구간 계산 시 주의 사항

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다