통계 모델의 선형 회귀에서 p 값을 추출하는 방법

에 의해 벤자민 앤더슨 7월 17, 2023 가이드 댓글 0개

Python의 statsmodels 모듈을 사용하여 선형 회귀 모델 피팅에서 계수에 대한 p-값을 추출하려면 다음 방법을 사용할 수 있습니다.

 #extract p-values for all predictor variables
for x in range(0, 3):
    print ( model.pvalues [x])

#extract p-value for specific predictor variable name
model. pvalues . loc [' predictor1 ']

#extract p-value for specific predictor variable position
model. pvalues [0]

다음 예에서는 각 방법을 실제로 사용하는 방법을 보여줍니다.

예: 통계 모델의 선형 회귀에서 P 값 추출

학습 시간, 응시한 준비 시험, 특정 수업의 학생들이 받은 최종 성적에 대한 정보가 포함된 다음과 같은 pandas DataFrame이 있다고 가정합니다.

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' hours ': [1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4, 3, 6],
                   ' exams ': [1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4, 3, 2],
                   ' score ': [76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90, 75, 96]})

#view head of DataFrame
df. head ()

	hours exam score
0 1 1 76
1 2 3 78
2 2 3 85
3 4 5 88
4 2 2 72

statsmodels 모듈의 OLS() 함수를 사용하여 “시간”과 “시험”을 예측 변수로 사용하고 “점수” 를 응답 변수 로 사용하여 다중 선형 회귀 모델 에 맞출 수 있습니다.

 import statsmodels. api as sm

#define predictor and response variables
y = df['score']
x = df[['hours', 'exams']]

#add constant to predictor variables
x = sm. add_constant (x)

#fit linear regression model
model = sm. OLS (y,x). fit ()

#view model summary
print ( model.summary ())

                            OLS Regression Results                            
==================================================== ============================
Dept. Variable: R-squared score: 0.718
Model: OLS Adj. R-squared: 0.661
Method: Least Squares F-statistic: 12.70
Date: Fri, 05 Aug 2022 Prob (F-statistic): 0.00180
Time: 09:24:38 Log-Likelihood: -38.618
No. Observations: 13 AIC: 83.24
Df Residuals: 10 BIC: 84.93
Df Model: 2                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 71.4048 4.001 17.847 0.000 62.490 80.319
hours 5.1275 1.018 5.038 0.001 2.860 7.395
exams -1.2121 1.147 -1.057 0.315 -3.768 1.344
==================================================== ============================
Omnibus: 1,103 Durbin-Watson: 1,248
Prob(Omnibus): 0.576 Jarque-Bera (JB): 0.803
Skew: -0.289 Prob(JB): 0.669
Kurtosis: 1.928 Cond. No. 11.7
==================================================== ============================

기본적으로 summary() 함수는 각 예측 변수의 p-값을 소수점 이하 세 자리까지 표시합니다.

절편에 대한 P-값: 0.000
시간에 대한 P-값: 0.001
시험에 대한 P-값: 0.315

그러나 다음 구문을 사용하여 모델에서 각 예측 변수에 대한 전체 p-값을 추출할 수 있습니다.

 #extract p-values for all predictor variables
for x in range(0, 3):
    print ( model.pvalues [x])

6.514115622692573e-09
0.0005077783375870773
0.3154807854805659

이를 통해 소수점 이하 자릿수가 더 많은 p-값을 볼 수 있습니다.

절편에 대한 P-값: 0.00000000651411562269257
시간에 대한 P-값: 0.0005077783375870773
시험에 대한 P-값: 0.3154807854805659

참고 : 회귀 모델에 총 3개의 계수가 있었기 때문에 range() 함수에 3을 사용했습니다.

또한 다음 구문을 사용하여 “시간” 변수에 대한 p-값을 구체적으로 추출할 수 있습니다.

 #extract p-value for 'hours' only
model. pvalues . loc [' hours ']

0.0005077783375870773

또는 다음 구문을 사용하여 회귀 모델의 특정 위치에서 변수 계수의 p-값을 추출할 수 있습니다.

 #extract p-value for coefficient in index position 0
model. pvalues [0]

6.514115622692573e-09

추가 리소스

다음 튜토리얼에서는 Python에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

Python에서 로지스틱 회귀를 수행하는 방법
Python에서 회귀 모델의 AIC를 계산하는 방법
Python에서 조정된 R-제곱을 계산하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예: 통계 모델의 선형 회귀에서 P 값 추출

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다