重線形回帰の概要


単一の予測変数と応答変数の間の関係を理解したい場合、多くの場合、単純な線形回帰が使用されます。

ただし、複数の予測変数と応答変数の間の関係を理解したい場合は、多重線形回帰を使用できます。

p 個の予測子変数がある場合、重線形回帰モデルは次の形式になります。

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

金:

  • Y : 応答変数
  • X j : j番目の予測変数
  • β j : 他のすべての予測子を固定したまま、X jの 1 単位増加が Y に与える平均効果
  • ε : 誤差項

β 0 、β 1 、B 2 、…、β pの値は、残差の二乗和 (RSS) を最小化する最小二乗法を使用して選択されます。

RSS = Σ(y i – ŷ i ) 2

金:

  • Σ : 和を意味するギリシャ語の記号
  • y i : i 番目の観測値の実際の応答値
  • ŷ i : 重回帰モデルに基づく予測応答値

これらの係数推定値を見つけるために使用される方法は、行列代数に関連付けられていますが、ここでは詳細には触れません。幸いなことに、どの統計ソフトウェアでもこれらの係数を計算できます。

重線形回帰の出力を解釈する方法

予測変数、学習時間、受験した予備試験、および解答変数の試験スコアを使用して重線形回帰モデルを当てはめるとします。

次のスクリーンショットは、このモデルの重線形回帰結果がどのようになるかを示しています。

注:以下のスクリーンショットはExcel の重線形回帰出力を示していますが、出力に示されている数値は、統計ソフトウェアを使用して表示される回帰出力の典型的なものです。

重線形回帰結果の解釈

モデルの結果から、係数を使用して推定重線形回帰モデルを形成できます。

試験スコア = 67.67 + 5.56*(時間数) – 0.60*(予備試験)

係数を解釈する方法は次のとおりです。

  • 模擬試験が一定であると仮定すると、学習時間が 1 単位増えるごとに、試験のスコアは平均5.56ポイント増加します。
  • 学習時間数が一定であると仮定すると、受験する予備試験が 1 単位増えるごとに、試験のスコアは平均0.60ポイント下がります。

このモデルを使用して、学習時間と受験した予備試験の合計に基づいて、学生が受け取る予想される試験成績を決定することもできます。たとえば、4 時間勉強して予備試験を 1 回受けた学生は、試験スコア89.31を達成する必要があります。

試験のスコア = 67.67 + 5.56*(4) -0.60*(1) = 89.31

モデルの残りの結果を解釈する方法は次のとおりです。

  • R-2乗:これは決定係数と呼ばれます。説明変数によって説明できる応答変数の分散の割合です。この例では、試験得点の変動の 73.4% は、勉強時間数と受験した予備試験の数によって説明されます。
  • 標準誤差:観測値と回帰直線の間の平均距離です。この例では、観測値は回帰直線から平均して 5,366 単位外れています。
  • F:これは回帰モデルの全体的な F 統計量であり、回帰 MS/残差 MS として計算されます。
  • F 意味:これは、全体的な F 統計量に関連付けられた p 値です。これにより、回帰モデル全体が統計的に有意であるかどうかがわかります。言い換えれば、組み合わせた 2 つの説明変数が応答変数と統計的に有意な関連性を持っているかどうかがわかります。この場合、p 値は 0.05 未満であり、説明変数である学習時間と受験した予備試験の合計が試験結果と統計的に有意な関連性があることを示しています。
  • 係数のP値。個々の p 値は、各説明変数が統計的に有意であるかどうかを示します。学習時間は統計的に有意 (p = 0.00) ですが、予備試験の受験時間 (p = 0.52) は α = 0.05 で統計的に有意ではないことがわかります。過去の予備試験は統計的に有意ではないため、最終的にはモデルから削除することを決定する可能性があります。

重線形回帰モデルの適合性を評価する方法

重線形回帰モデルがデータセットにどの程度「適合」するかを評価するために、一般的に 2 つの数値が使用されます。

1. R 二乗:これは、予測変数によって説明できる応答変数の分散の割合です。

R 二乗値の範囲は 0 ~ 1 です。値 0 は、応答変数が予測変数によってまったく説明できないことを示します。値 1 は、応答変数が予測変数によって誤差なく完全に説明できることを示します。

モデルの R 二乗が大きいほど、モデルはデータにうまく適合できます。

2. 標準誤差:観測値と回帰直線の間の平均距離です。標準誤差が小さいほど、モデルはデータにうまく適合できます。

回帰モデルを使用して予測を行いたい場合、回帰の標準誤差は、単位に関して予測がどの程度正確であるかを知ることができるため、R 二乗よりも知っておくと便利な指標になる可能性があります。

モデルの適合性を評価するために R 二乗誤差と標準誤差を使用することの長所と短所の詳細な説明については、次の記事を参照してください。

重線形回帰の仮定

多重線形回帰では、データに関して 4 つの重要な仮定が行われます。

1. 線形関係:独立変数 x と従属変数 y の間には線形関係があります。

2. 独立性:残差は独立しています。特に、時系列データ内の連続する残差間に相関はありません。

3. 等分散性:残差は x の各レベルで一定の分散を持ちます。

4. 正規性:モデルの残差は正規分布します。

これらの仮説をテストする方法の詳細については、 この記事を参照してください。

ソフトウェアを使用した重回帰

次のチュートリアルでは、さまざまな統計ソフトウェアを使用して重線形回帰を実行する方法について、段階的な例を示します。

R で重回帰を実行する方法
Python で重回帰を実行する方法
Excelで重回帰を実行する方法
SPSS で重回帰を実行する方法
Stata で重回帰を実行する方法
Google スプレッドシートで線形回帰を実行する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です