回帰係数の解釈方法


統計学において、 回帰分析は、予測変数と応答変数の間の関係を分析するために使用できる手法です。

ソフトウェア ( RStataSPSSなど) を使用して回帰分析を実行すると、回帰結果を要約した回帰表を出力として受け取ります。

おそらく回帰表の結果で最も重要な数値は回帰係数です。しかし、その重要性にもかかわらず、多くの人はこれらの数字を正しく解釈するのに苦労しています。

このチュートリアルでは、回帰分析の例を示し、回帰から得られる回帰係数を解釈する方法について詳しく説明します。

関連:回帰表全体を読んで解釈する方法

回帰分析の例

次の変数を使用して回帰分析を実行するとします

予測変数

  • 合計学習時間数 (連続変数 – 0 ~ 20 )
  • 生徒が家庭教師を利用したかどうか (カテゴリ変数 – 「はい」または「いいえ」 )

応答変数

  • 試験スコア (連続変数– 1 ~ 100 )

予測変数と応答変数の関係を調べて、学習時間と生徒が家庭教師を利用したかどうかが実際に試験の成績に大きな影響を与えるかどうかを確認したいと考えています。

回帰分析を実行して次の結果が得られたとします。

学期 係数 標準誤差 t 統計 P値
インターセプト 48.56 午後2時32分 3.39 0.002
勉強時間 2.03 0.67 3.03 0.009
家庭教師 8.34 5.68 1.47 0.138

各回帰係数を解釈する方法を見てみましょう。

傍受の解釈

回帰表の元の項は、すべての予測子変数がゼロに等しい場合の応答変数の期待平均値を示します。

この例では、原点の回帰係数は48.56に等しくなります。これは、勉強時間が 0 時間 (勉強時間 = 0) 、家庭教師を利用しなかった生徒 (家庭教師 = 0) の場合、予想される試験の平均スコアは 48.56 であることを意味します。

切片の回帰係数は、モデル内のすべての予測子変数が実際にゼロに等しいことが合理的である場合にのみ重要であることに注意することが重要です。この例では、生徒がゼロ時間勉強し (勉強時間 = 0) 、家庭教師を利用しなかった (講師 = 0) 可能性は確かにあります。したがって、この例では、切片の回帰係数の解釈が意味を持ちます。

ただし、場合によっては、切片の回帰係数が重要ではありません。たとえば、予測変数として平方フィート、応答変数として家の値を使用して回帰分析を実行したとします。

出力回帰テーブルでは、家の平方フィートがゼロになることはあり得ないため、元の項の回帰係数は意味のある解釈を持ちません。この場合、元の項の回帰係数は、回帰直線を正しい場所に固定するだけです。

連続予測子変数の係数の解釈

連続予測子変数の場合、回帰係数は、他のすべての予測子変数が一定のままであると仮定した場合、予測子変数の 1 単位変化ごとの応答変数の予測値の差を表します。

この例では、調査時間は0 ~ 20 時間の範囲の連続予測変数です。学生が 0 時間しか勉強しなかったケースもあれば、最大 20 時間勉強した学生もいます。

回帰結果から、学習時間の回帰係数は2.03であることがわかります。これは、予測変数Tutor が一定に保たれていると仮定すると、平均して、学習時間が追加されるごとに、最終試験で 2.03 点の増加に関連付けられることを意味します。

たとえば、家庭教師を利用して 10 時間勉強する生徒 A について考えてみましょう。また、11 時間勉強し、家庭教師も利用する生徒 B についても考えてみましょう。回帰結果によると、生徒 B は生徒 A よりも試験で 2.03 ポイント高い得点が期待されます。

回帰表の p 値は、この回帰係数が実際に統計的に有意であるかどうかを示します。調査時間の p 値は0.009であり、アルファ レベル 0.05 で統計的に有意であることがわかります。

注:アルファ レベルは回帰分析を実行する前に選択する必要があります。アルファ レベルの一般的な選択は 0.01、0.05、および 0.10 です。

関連記事: P値とその統計的有意性の説明

カテゴリカル予測子変数の係数の解釈

カテゴリカル予測子変数の場合、回帰係数は、予測子変数 = 0 のカテゴリと予測子変数 = 1 のカテゴリ間の応答変数の予測値の差を表します。

この例では、 Tutor は2 つの異なる値を取ることができるカテゴリ予測変数です。

  • 1 = 学生は試験の準備のために家庭教師を利用しました
  • 0 = 学生は試験の準備のために家庭教師を利用しませんでした

回帰結果から、 Tutorの回帰係数は8.34であることがわかります。これは、予測変数「学習時間」が一定であると仮定すると、家庭教師を利用した生徒は、家庭教師を利用しなかった生徒よりも平均して、試験で 8.34 点高得点を獲得したことを意味します。

たとえば、家庭教師を利用して 10 時間勉強する生徒 A について考えてみましょう。また、家庭教師を利用せずに 10 時間勉強する生徒 B についても考えてみましょう。回帰結果によると、学生 A は学生 B よりも 8.34 ポイント高い試験スコアを持つと予想されます。

回帰表の p 値は、この回帰係数が実際に統計的に有意であるかどうかを示します。 Tutorの p 値は0.138であり、アルファ レベル 0.05 では統計的に有意ではないことがわかります。これは、家庭教師を利用した生徒の方が試験の成績が良かったが、この差は偶然によるものである可能性があることを示しています。

すべての係数を一度に解釈します

回帰表のすべての係数を使用して、次の推定回帰式を作成できます。

予想される試験スコア = 48.56 + 2.03*(勉強時間) + 8.34*(家庭教師)

:予測変数「Tutor」は 0.05 アルファ レベルでは統計的に有意ではなかったので、この予測変数をモデルから削除し、回帰式の最終推定値で使用しないことを選択できます。

この推定回帰式を使用すると、総学習時間数と家庭教師を利用したかどうかに基づいて、生徒の最終試験の成績を予測できます。

たとえば、家庭教師を利用して 10 時間勉強した生徒は、次の試験スコアを取得する必要があります。

予想される試験スコア = 48.56 + 2.03*(10) + 8.34*(1) = 77.2

回帰係数を解釈する際に相関関係を考慮する

回帰モデルでは、予測変数が相互に影響を与える可能性があることに留意することが重要です。たとえば、ほとんどの予測変数は互いに少なくともある程度の関連性があります (たとえば、より多く勉強する生徒は家庭教師を利用する可能性も高くなります)。

これは、さまざまな予測子変数がモデルに追加またはモデルから削除されると、回帰係数が変化することを意味します。

予測変数間の相関が回帰モデルに深刻な影響を与えるほど深刻かどうかを確認する良い方法は、予測変数間の VIF をチェックすることです。

これにより、予測変数間の相関が、回帰係数の解釈を決定する前に解決する必要がある問題であるかどうかがわかります。

単一の予測子を使用して単純な線形回帰モデルを実行する場合、相関のある予測子変数は問題になりません。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です