線形回帰で p 値を解釈する方法 (例付き)
統計では、線形回帰モデルを使用して、1 つ以上の予測変数と応答変数の間の関係を定量化します。
統計ソフトウェアを使用して回帰分析を実行するたびに、モデルの結果を要約した回帰表を受け取ります。
回帰表の最も重要な値の 2 つは、回帰係数とそれに対応するp 値です。
p 値は、各予測変数と応答変数の間に統計的に有意な関係があるかどうかを示します。
次の例は、実際に重線形回帰モデルの p 値を解釈する方法を示しています。
例: 回帰モデルの P 値の解釈
次の変数を使用して回帰モデルを近似したいとします。
予測変数
- 合計学習時間数 (0 ~ 20)
- 生徒が家庭教師を利用したかどうか(はいまたはいいえ)
応答変数
- 試験のスコア (0 ~ 100)
予測変数と応答変数の関係を調べて、学習時間と個別指導時間が実際に試験のスコアに大きな影響を与えるかどうかを確認したいと考えています。
回帰分析を実行して次の結果が得られたとします。
学期 | 係数 | 標準誤差 | t 統計 | P値 |
---|---|---|---|---|
インターセプト | 48.56 | 午後2時32分 | 3.39 | 0.002 |
勉強時間 | 2.03 | 0.67 | 3.03 | 0.009 |
家庭教師 | 8.34 | 5.68 | 1.47 | 0.138 |
モデル内の各項の結果を解釈する方法は次のとおりです。
切片の P 値の解釈
回帰表の元の項は、すべての予測子変数がゼロに等しい場合の応答変数の期待平均値を示します。
この例では、原点の回帰係数は48.56に等しくなります。これは、勉強時間が 0 時間だった生徒の予想される試験の平均スコアは 48.56 であることを意味します。
p 値は0.002で、元の項が統計的にゼロとは異なることがわかります。
実際には、通常、元の項の p 値は気にしません。 p 値が特定の有意水準 (0.05 など) を下回っていない場合でも、モデル内の元の項を維持します。
連続予測子変数の P 値の解釈
この例では、調査時間は0 ~ 20 時間の範囲の連続予測変数です。
回帰結果から、学習時間の回帰係数は2.03であることがわかります。これは、予測変数Tutor が一定に保たれていると仮定すると、平均して、学習時間が追加されるごとに、最終試験で 2.03 点の増加に関連付けられることを意味します。
たとえば、家庭教師を利用して 10 時間勉強する生徒 A について考えてみましょう。また、11 時間勉強し、家庭教師も利用する生徒 B についても考えてみましょう。回帰結果によると、生徒 B は生徒 A よりも試験で2.03ポイント高い得点が期待されます。
対応する p 値は0.009で、アルファ レベル 0.05 で統計的に有意です。
これは、追加の 1 時間の学習ごとの試験得点の平均変化が統計的にゼロとは大きく異なることを示しています。
言い換えれば、勉強時間は試験スコアの応答変数と統計的に有意な関係があるということです。
カテゴリカル予測子変数の P 値の解釈
この例では、 Tutor は2 つの異なる値を取ることができるカテゴリ予測変数です。
- 1 = 学生は試験の準備のために家庭教師を利用しました
- 0 = 学生は試験の準備のために家庭教師を利用しませんでした
回帰結果から、Tutor の回帰係数は8.34であることがわかります。これは、予測変数「学習時間」が一定であると仮定すると、家庭教師を利用した生徒は、家庭教師を利用しなかった生徒よりも平均して、試験で 8.34 点高得点を獲得したことを意味します。
たとえば、家庭教師を利用して 10 時間勉強する生徒 A について考えてみましょう。また、家庭教師を利用せずに 10 時間勉強する生徒 B についても考えてみましょう。回帰結果によると、学生 A は学生 B よりも 8.34 ポイント高い試験スコアを持つと予想されます。
対応する p 値は0.138で、アルファ レベル 0.05 では統計的に有意ではありません。
これは、追加の 1 時間の学習ごとの試験得点の平均変化が統計的にゼロから有意に変わらないことを示しています。
別の言い方をすると、 「先生」の予測変数は、試験スコアの応答変数と統計的に有意な関係がありません。
これは、家庭教師を利用した生徒の方が試験の成績が良かったが、この差は運によるものである可能性があることを示しています。
追加リソース
次のチュートリアルでは、線形回帰に関する追加情報を提供します。