回帰切片の信頼区間を計算する方法


単純な線形回帰は、予測変数と応答変数の間の関係を定量化するために使用されます。

このメソッドは、一連のデータに最もよく「一致」する行を検索し、次の形式を取ります。

ŷ = b 0 + b 1 x

金:

  • ŷ : 推定応答値
  • b 0 : 回帰直線の原点
  • b 1 : 回帰直線の傾き
  • x : 予測変数の値

私たちはしばしば b 1の値に興味を持ちます。これは、予測変数の 1 単位の増加に関連する応答変数の平均変化を示します。

ただし、まれにb0の値にも関心があり、予測子変数が 0 の場合の応答変数の平均値がわかります。

次の式を使用して、真の母定数である β 0の値の信頼区間を計算できます。

β 0の信頼区間: b 0 ± t α/2, n-2 * se(b 0 )

次の例は、実際に切片の信頼区間を計算する方法を示しています。

例: 回帰切片の信頼区間

特定のクラスの 15 人の生徒について、学習時間を予測変数として使用し、試験の得点を応答変数として使用して、単純な線形回帰モデルを近似したいとします。

次のコードは、この単純な線形回帰モデルを R に適合させる方法を示しています。

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

結果の係数推定値を使用すると、次のように近似単純線形回帰モデルを作成できます。

スコア = 65.334 + 1.982*(学習時間)

切片値は 65.334 です。これは、ゼロ時間勉強した生徒の推定平均試験スコアが65,334であることを示しています。

次の式を使用して、切片の 95% 信頼区間を計算できます。

  • β 0の 95% CI: b 0 ± t α/2, n-2 * se(b 0 )
  • β 0の 95% CI : 65.334 ± t 0.05/2.15-2 * 2.106
  • β 0の 95% CI : 65.334 ± 2.1604 * 2.106
  • β 0の 95% CI: [60.78, 69.88]

これは、ゼロ時間勉強した学生の実際の試験平均スコアが 60.78 ~ 69.88 であると 95% の確率で確信できることを意味すると解釈します。

: 逆 t 分布計算ツールを使用して、13 自由度で 95% の信頼水準に対応する臨界 t 値を見つけました。

回帰切片の信頼区間を計算する際の注意事項

実際には、モデル回帰における切片の値を解釈することは通常意味がないため、回帰切片の信頼区間を計算しないことがよくあります。

たとえば、バスケットボール選手の身長を予測変数として使用し、1 試合あたりの平均得点を応答変数として使用する回帰モデルを当てはめるとします。

プレーヤーの身長がゼロフィートであることは不可能であるため、このモデルでインターセプトを文字通りに解釈することは意味がありません。

このように、予測変数がゼロの値を取ることができないシナリオは無数にあります。したがって、モデルの元の値を解釈したり、原点の信頼区間を作成したりすることは意味がありません。

たとえば、モデル内の次の潜在的な予測変数について考えてみましょう。

  • 家の面積
  • 車の長さ
  • 人の体重

これらの各予測変数は値 0 を取ることができません。したがって、これらの状況のいずれかで回帰モデルの原点の信頼区間を計算することは意味がありません。

追加リソース

次のチュートリアルでは、線形回帰に関する追加情報を提供します。

単線形回帰の概要
重線形回帰の概要
回帰表の見方と解釈方法
回帰結果を報告する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です