回帰モデルで重要な変数を決定する方法
重線形回帰モデルを当てはめた後に自問する主な質問の 1 つは、「どの変数が重要なのか?」ということです。
変数の意味を判断するために使用すべきではない方法が 2 つあります。
1. 回帰係数の値
特定の予測子変数の回帰係数は、その予測子変数の 1 単位の増加に関連する応答変数の平均変化を示します。
ただし、モデル内の各予測変数は通常、異なるスケールで測定されます。したがって、どの変数が最も重要かを判断するために回帰係数の絶対値を比較することは意味がありません。
2.回帰係数のp値
回帰係数の p 値は、特定の予測子変数が応答変数と統計的に有意な関連があるかどうかを示しますが、特定の予測子変数が現実の世界で実質的に有意であるかどうかはわかりません。
サンプルサイズが大きいか変動性が低いために P 値が低くなる場合もありますが、これでは特定の予測変数が実際に意味があるかどうかはわかりません。
ただし、変数の意味を判断するには次の 2 つの方法を使用する必要があります。
1. 標準化された回帰係数
通常、多重線形回帰を実行する場合、モデル出力で得られる回帰係数は標準化されていません。つまり、生データを使用して最適な直線を見つけます。
ただし、各予測変数と応答変数を標準化して(元の値から各変数の平均値を引き、変数の標準偏差で割ることにより)、回帰を実行することは可能です。標準化された回帰係数。
モデル内の各変数を標準化することにより、各変数は同じスケールで測定されます。したがって、結果の回帰係数の絶対値を比較して、どの変数が応答変数に最も大きな影響を与えるかを理解することは意味があります。
2. 主題に関する専門知識
p 値は、特定の予測変数と応答変数の間に統計的に有意な効果があるかどうかを示しますが、予測変数が実際に関連しており、実際にモデルに含めるべきかどうかを確認するには、主題に関する専門知識が必要です。
次の例は、実際に回帰モデル内の重要な変数を決定する方法を示しています。
例: 回帰モデル内の重要な変数を決定する方法
12 戸の住宅の築年数、面積、販売価格に関する情報を含む次のデータセットがあるとします。
次に、築年数と面積を予測変数として、価格を応答変数として使用して重線形回帰を実行するとします。
次の結果が得られます。
この表の回帰係数は標準化されていません。つまり、この回帰モデルに適合させるために生データが使用されたことを意味します。
一見すると、回帰表の係数が-409.833 であるのに対し、予測変数の平方フィートの係数は100.866にすぎないため、築年数が不動産価格に大きく影響するように見えます。
ただし、標準誤差は平方フィートよりも年齢の方がはるかに大きいため、対応する p 値は実際には年齢では大きく (p = 0.520)、平方フィートでは小さくなります (p = 0.000)。
回帰係数が極端に異なる理由は、2 つの変数のスケールが極端に異なるためです。
- 年齢の値の範囲は 4 ~ 44 歳です。
- 平方フィート値の範囲は 1,200 ~ 2,800 です。
代わりに生データを正規化するとします。
次に、標準化されたデータを使用して重線形回帰を実行すると、次の回帰結果が得られます。
この表の回帰係数は標準化されており、この回帰モデルに適合させるために標準化されたデータを使用したことを意味します。
表内の係数を解釈する方法は次のとおりです。
- 平方フィートが一定であると仮定すると、築年数が 1 標準偏差で増加すると、住宅価格は0.092標準偏差で減少します。
- 築年数が一定であると仮定すると、平方フィートの1 標準偏差の増加は、住宅価格の0.885標準偏差の増加に関連します。
築年数よりも面積の方が住宅価格に大きく影響することがわかりました。
注: 各予測変数の p 値は、前の回帰モデルの p 値とまったく同じです。
どの最終モデルを使用するかを決定する際、住宅の価格を予測するには築年数よりも平方フィートの方がはるかに重要であることがわかっています。
最終的には、対象分野の専門知識を活用して、住宅や不動産の価格に関する既存の知識に基づいて、最終モデルにどの変数を含めるかを決定する必要があります。
追加リソース
次のチュートリアルでは、回帰モデルに関する追加情報を提供します。