ロジスティック回帰の帰無仮説を理解する
ロジスティック回帰は、応答変数が 2 値である場合に、1 つ以上の予測変数と応答変数の間の関係を理解するために使用できる回帰モデルの一種です。
予測変数と応答変数が 1 つだけの場合は、次の式を使用して変数間の関係を推定する単純ロジスティック回帰を使用できます。
log[p(X) / (1-p(X))] = β 0 + β 1
方程式の右側の式は、応答変数が値 1 を取る確率の対数を予測します。
単純なロジスティック回帰では、次の帰無仮説と対立仮説を使用します。
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
帰無仮説は、係数 β 1がゼロに等しいと述べています。言い換えれば、予測変数 x と応答変数 y の間に統計的に有意な関係はありません。
対立仮説では、β 1はゼロに等しくないと述べています。言い換えれば、x と y の間には統計的に有意な関係があるということです。
複数の予測変数と 1 つの応答変数がある場合は、次の式を使用して変数間の関係を推定する多重ロジスティック回帰を使用できます。
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
多重ロジスティック回帰では、次の帰無仮説と対立仮説を使用します。
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
帰無仮説は、モデル内のすべての係数がゼロに等しいと述べています。言い換えれば、どの予測変数も応答変数 y と統計的に有意な関係を持ちません。
対立仮説は、すべての係数が同時にゼロに等しくなるわけではない、と述べています。
次の例は、単純ロジスティック回帰モデルおよび多重ロジスティック回帰モデルで帰無仮説を棄却するかどうかを決定する方法を示しています。
例 1: 単純なロジスティック回帰
教授が、勉強時間数を使用して、クラスの生徒が到達するであろう試験の成績を予測したいとします。 20 人の学生からデータを収集し、単純なロジスティック回帰モデルに適合します。
R で次のコードを使用すると、単純なロジスティック回帰モデルを当てはめることができます。
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
学習時間と試験のスコアの間に統計的に有意な関係があるかどうかを判断するには、モデルの全体的なカイ二乗値と対応する p 値を分析する必要があります。
次の式を使用して、モデル全体のカイ 2 乗値を計算できます。
X 2 = (ゼロ逸脱 – 残留逸脱) / (ゼロ Df – 残留 Df)
p 値は0.2717286であることがわかります。
この p 値は 0.05 未満ではないため、帰無仮説を棄却できません。言い換えれば、勉強時間と試験の得点の間には統計的に有意な関係はないということです。
例 2: 多重ロジスティック回帰
教授が、学習時間数と受けた予備試験の数を使用して、学生が彼のクラスで獲得する成績を予測したいとします。 20 人の学生からデータを収集し、多重ロジスティック回帰モデルに適合します。
R で次のコードを使用すると、多重ロジスティック回帰モデルを当てはめることができます。
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
モデルの全体的なカイ二乗統計量の p 値は0.01971255であることがわかります。
この p 値は 0.05 未満であるため、帰無仮説を棄却します。言い換えれば、学習時間と受験した予備試験の組み合わせと、試験で得られた最終成績との間には統計的に有意な関係があるということです。
追加リソース
次のチュートリアルでは、ロジスティック回帰に関する追加情報を提供します。