標準化および非標準化回帰係数


重線形回帰は、 2 つ以上の予測変数と応答変数の間の関係を定量化するのに便利な方法です。

通常、多重線形回帰を実行すると、結果として得られる回帰係数は標準化されていません。つまり、生データを使用して最適な直線を見つけます。

ただし、予測変数が根本的に異なるスケールで測定される場合は、標準化されたデータを使用して重回帰を実行し、標準化された係数を得ることが役立つ場合があります。

この考え方を理解するために、簡単な例を見てみましょう。

例: 標準化された回帰係数と非標準化された回帰係数

12 戸の住宅の築年数、面積、販売価格に関する情報を含む次のデータセットがあるとします。

次に、築年数面積を予測変数として、価格を応答変数として使用して重線形回帰を実行するとします。

回帰の結果は次のとおりです。

標準化されていない回帰係数の例

この表の回帰係数は標準化されていません。つまり、この回帰モデルに適合させるために生データが使用されたことを意味します。一見すると、回帰表の係数が-409.833 であるのに対し、予測変数の平方フィートの係数は100.866にすぎないため、築年数が不動産価格に大きく影響するように見えます。

ただし、標準誤差は平方フィートよりも年齢の方がはるかに大きいため、対応する p 値は実際には年齢では大きく (p = 0.520)、平方フィートでは小さくなります (p = 0.000)。

回帰係数が極端に異なる理由は、2 つの変数のスケールが極端に異なるためです。

  • 年齢の値の範囲は 4 ~ 44 歳です。
  • 平方フィート値の範囲は 1,200 ~ 2,800 です。

代わりに、元の各データ値を Z スコアに変換することで元の生データを正規化するとします

Excel でデータを標準化する

次に、標準化されたデータを使用して重線形回帰を実行すると、次の回帰結果が得られます。

標準化された回帰係数

この表の回帰係数は標準化されており、この回帰モデルに適合させるために標準化されたデータを使用したことを意味します。表内の係数を解釈する方法は次のとおりです。

  • 平方フィートが一定であると仮定すると、築年数が 1 標準偏差で増加すると、住宅価格は0.092標準偏差で減少します。
  • 築年数が一定であると仮定すると、平方フィートの1 標準偏差の増加は、住宅価格の0.885標準偏差の増加に関連します。

築年数よりも面積の方が不動産価格に大きく影響することがすぐにわかります。また、各予測変数の p 値が前の回帰モデルの p 値とまったく同じであることにも注意してください。

関連: Excel で Z スコアを計算する方法

標準化または非標準化回帰係数をいつ使用するか

状況に応じて、標準化された回帰係数と非標準化された回帰係数の両方が役立つ場合があります。特に:

非標準化回帰係数は、予測変数の 1 単位の変化が応答変数に与える影響を解釈する場合に役立ちます。上の例では、最初の回帰の非標準化回帰係数を使用して、予測変数と応答変数の間の正確な関係を理解できます。

  • 平方フィートが一定であると仮定すると、築年数が 1 単位増加すると、住宅価格は平均409 ドル減少します。この係数は統計的に有意ではないことが判明しました (p=0.520)。
  • 築年数が一定であると仮定すると、平方フィートが 1 ユニット増加すると、住宅価格は平均100 ドル上昇しました。この係数は統計的に有意であることもわかりました (p=0.000)。

標準化された回帰係数は、応答変数に対するさまざまな予測変数の影響を比較する場合に役立ちます。各変数は標準化されているため、どの変数が応答変数に最も大きな影響を与えるかを確認できます。

標準化された回帰係数の欠点は、解釈が少し難しいことです。たとえば、年齢が 1 単位増加することが不動産価格に与える影響は、標準偏差が 1 増加することが不動産価格に与える影響よりも理解しやすいです。

追加リソース

回帰表の見方と解釈方法
回帰係数の解釈方法
Excel で重線形回帰を実行する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です