회귀 계수를 해석하는 방법
통계에서 회귀 분석은 예측 변수와 반응 변수 간의 관계를 분석하는 데 사용할 수 있는 기술입니다.
회귀 분석을 수행하기 위해 소프트웨어(예: R , Stata , SPSS 등)를 사용하면 회귀 결과를 요약하는 회귀 테이블이 출력으로 수신됩니다.
회귀표 결과에서 가장 중요한 숫자는 회귀계수 입니다. 그러나 그 중요성에도 불구하고 많은 사람들은 이 숫자를 정확하게 해석하는 데 어려움을 겪습니다.
이 튜토리얼에서는 회귀 분석의 예를 제시하고 회귀로 인한 회귀 계수를 해석하는 방법에 대한 자세한 설명을 제공합니다.
관련 항목: 전체 회귀표를 읽고 해석하는 방법
회귀 분석의 예
다음 변수를 사용하여 회귀 분석을 수행한다고 가정합니다 .
예측 변수
- 총 학습 시간( 연속 변수 – 0~20 )
- 학생이 튜터를 사용했는지 여부( 범주형 변수 – “예” 또는 “아니오” )
반응변수
- 시험 점수( 연속 변수 – 1~100 사이 )
우리는 학습 시간과 학생이 튜터를 사용했는지 여부가 실제로 시험 성적에 중요한 영향을 미치는지 확인하기 위해 예측 변수와 응답 변수 간의 관계를 조사하려고 합니다.
회귀 분석을 수행하고 다음과 같은 결과를 얻었다고 가정합니다.
용어 | 계수 | 표준 에러 | t 통계 | P-값 |
---|---|---|---|---|
인터셉트 | 48.56 | 오후 2시 32분 | 3.39 | 0.002 |
공부한 시간 | 2.03 | 0.67 | 3.03 | 0.009 |
가정 교사 | 8.34 | 5.68 | 1.47 | 0.138 |
각 회귀계수를 해석하는 방법을 살펴보겠습니다.
차단의 해석
회귀표의 원래 항은 모든 예측 변수가 0일 때 반응 변수의 예상 평균 값을 알려줍니다.
이 예에서 원점에 대한 회귀 계수는 48.56 입니다. 이는 0시간( 공부한 시간 = 0) 공부하고 교사를 사용하지 않은( 튜터 = 0) 학생의 평균 예상 시험 점수는 48.56임을 의미합니다.
절편에 대한 회귀 계수는 모델의 모든 예측 변수가 실제로 0과 같을 수 있다는 것이 합리적인 경우에만 중요하다는 점에 유의하는 것이 중요합니다. 이 예에서는 학생이 0시간 공부했고( 공부한 시간 = 0) 교사를 사용하지 않았을 수도 있습니다( 튜터 = 0). 따라서 절편의 회귀 계수 해석은 이 예에서 의미가 있습니다.
그러나 어떤 경우에는 절편에 대한 회귀 계수가 중요하지 않습니다. 예를 들어, 평방 피트를 예측 변수로 사용하고 주택 가치를 응답 변수로 사용하여 회귀 분석을 수행했다고 가정합니다.
출력 회귀 테이블에서 원래 항에 대한 회귀 계수는 주택의 평방 피트가 0과 같을 수 없으므로 의미 있는 해석을 갖지 않습니다. 이 경우 원래 용어에 대한 회귀 계수는 단순히 회귀선을 올바른 위치에 고정합니다.
연속 예측 변수의 계수 해석
연속형 예측 변수의 경우 회귀 계수는 다른 모든 예측 변수가 일정하게 유지된다는 가정 하에 예측 변수의 각 1단위 변화에 대한 반응 변수의 예측 값 간의 차이를 나타냅니다.
이 예에서 공부 시간은 0~20시간 범위의 연속 예측 변수입니다. 어떤 경우에는 0시간만 공부한 학생도 있었고, 어떤 경우에는 최대 20시간 동안 공부한 학생도 있었습니다.
회귀 결과에서 학습 시간 에 대한 회귀 계수가 2.03 임을 알 수 있습니다. 이는 예측 변수 Tutor가 일정하게 유지된다고 가정할 때 평균적으로 추가 학습 시간이 최종 시험에서 2.03점 증가하는 것과 연관되어 있음을 의미합니다.
예를 들어, 10시간 동안 공부하고 튜터를 고용하는 학생 A를 생각해 보세요. 또한 11시간 동안 공부하고 튜터를 고용하는 학생 B를 생각해 보십시오. 회귀 결과에 따르면 학생 B는 시험에서 학생 A보다 2.03점 더 높은 점수를 받을 것으로 예상됩니다.
회귀표의 p-값은 이 회귀 계수가 실제로 통계적으로 유의미한지 여부를 알려줍니다. 연구 시간 에 대한 p-값은 0.009 로 알파 수준 0.05에서 통계적으로 유의하다는 것을 알 수 있습니다.
참고: 회귀 분석을 수행하기 전에 알파 수준을 선택해야 합니다. 알파 수준에 대한 일반적인 선택은 0.01, 0.05 및 0.10입니다.
관련 기사: P값과 그 통계적 유의성에 대한 설명
범주형 예측 변수의 계수 해석
범주형 예측 변수의 경우 회귀 계수는 예측 변수 = 0인 범주와 예측 변수 = 1인 범주 간의 반응 변수 예측 값의 차이를 나타냅니다.
이 예에서 Tutor 는 두 가지 다른 값을 사용할 수 있는 범주형 예측 변수입니다.
- 1 = 학생이 시험 준비를 위해 튜터를 이용했습니다.
- 0 = 학생이 시험 준비를 위해 튜터를 활용하지 않았습니다.
회귀 결과에서 Tutor 에 대한 회귀 계수가 8.34 임을 알 수 있습니다. 이는 예측 변수인 학습 시간이 일정하게 유지된다는 가정 하에 튜터를 사용한 학생이 튜터를 사용하지 않은 학생보다 시험에서 평균 8.34점 더 높은 점수를 받았다는 의미입니다.
예를 들어, 10시간 동안 공부하고 튜터를 고용하는 학생 A를 생각해 보세요. 또한 10시간 동안 공부하고 튜터를 사용하지 않는 학생 B를 생각해 보십시오. 회귀 결과에 따르면 학생 A는 학생 B보다 시험 점수가 8.34점 더 높을 것으로 예상됩니다.
회귀표의 p-값은 이 회귀 계수가 실제로 통계적으로 유의미한지 여부를 알려줍니다. Tutor 에 대한 p-값은 0.138 로 알파 수준 0.05에서는 통계적으로 유의하지 않음을 알 수 있습니다. 이는 튜터를 사용한 학생들이 시험에서 더 좋은 성적을 거두었지만 이러한 차이는 운에 의한 것일 수 있음을 나타냅니다.
모든 계수를 한 번에 해석
회귀표의 모든 계수를 사용하여 다음과 같은 추정 회귀 방정식을 만들 수 있습니다.
예상 시험 점수 = 48.56 + 2.03*(학습 시간) + 8.34*(튜터)
참고 : 예측 변수 “Tutor”는 0.05 알파 수준에서 통계적으로 유의하지 않았으므로 모델에서 이 예측 변수를 제거하고 회귀 방정식 최종 추정에 사용하지 않도록 선택할 수 있습니다.
이 추정 회귀식을 사용하여 학생의 총 학습 시간과 튜터 사용 여부를 기준으로 학생의 최종 시험 성적을 예측할 수 있습니다.
예를 들어, 10시간 동안 공부하고 튜터를 활용한 학생은 다음과 같은 시험 점수를 받아야 합니다.
예상 시험 점수 = 48.56 + 2.03*(10) + 8.34*(1) = 77.2
회귀계수를 해석할 때 상관관계 고려
회귀 모델에서 예측 변수가 서로 영향을 미칠 수 있다는 점을 명심하는 것이 중요합니다. 예를 들어, 대부분의 예측 변수는 적어도 어느 정도 서로 관련되어 있습니다(예: 공부를 더 많이 하는 학생은 교사를 사용할 가능성도 더 높습니다).
이는 모델에 다양한 예측 변수가 추가되거나 제거될 때 회귀 계수가 변경된다는 것을 의미합니다.
예측 변수 간의 상관 관계가 회귀 모델에 심각한 영향을 미칠 만큼 심각한지 확인하는 좋은 방법은 예측 변수 간의 VIF를 확인하는 것입니다.
이는 예측 변수 간의 상관 관계가 회귀 계수 해석을 결정하기 전에 해결해야 하는 문제인지 여부를 알려줍니다.
단일 예측 변수를 사용하여 단순 선형 회귀 모델을 실행하는 경우 상관된 예측 변수는 문제가 되지 않습니다.