回帰における多重共線性と vif のガイド
回帰分析における多重共線性は、2 つ以上の予測変数が相互に高度に相関しており、回帰モデル内で固有または独立した情報を提供しない場合に発生します。
変数間の相関度が十分に高い場合、回帰モデルのフィッティングと解釈の際に問題が発生する可能性があります。
たとえば、最大垂直ジャンプ応答変数と次の予測子変数を使用して回帰分析を実行するとします。
- 身長
- 靴のサイズ
- 1日に練習に費やす時間
この場合、身長が高い人は靴のサイズが大きい傾向があるため、身長と靴のサイズには高い相関関係があると考えられます。これは、この回帰では多重共線性が問題になる可能性が高いことを意味します。
このチュートリアルでは、多重共線性が問題となる理由、その検出方法、修正方法について説明します。
多重共線性が問題となる理由
回帰分析の主な目的の 1 つは、各予測変数と応答変数の間の関係を分離することです。
特に、回帰分析を実行するときは、モデル内の他のすべての予測子変数が一定のままであると仮定して、各回帰係数を応答変数の平均変化として解釈します。
これは、他の予測子変数の値を変更せずに、特定の予測子変数の値を変更できると想定していることを意味します。
ただし、2 つ以上の予測変数の相関性が高い場合、1 つの変数を変更せずに別の変数を変更することが困難になります。
これにより、予測変数は一斉に変化する傾向があるため、回帰モデルが各予測変数と応答変数の間の関係を独立して推定することが困難になります。
一般に、多重共線性は 2 種類の問題を引き起こします。
- モデルの係数推定値 (さらには係数の符号) は、モデルに含まれる他の予測変数に応じて大幅に変動する可能性があります。
- 係数推定の精度が低下し、p 値の信頼性が低くなります。このため、どの予測変数が実際に統計的に有意であるかを判断することが困難になります。
多重共線性を検出する方法
多重共線性を検出する最も一般的な方法は、分散膨張係数 (VIF)を使用することです。これは、回帰モデル内の予測子変数間の相関と相関の強さを測定します。
分散インフレ係数 (VIF) の使用
ほとんどの統計ソフトウェアには、回帰モデルの VIF を計算する機能があります。 VIF 値は 1 から始まり、上限はありません。 VIF を解釈するための一般的なルールは次のとおりです。
- 値 1 は、モデル内の特定の予測子変数と他の予測子変数の間に相関がないことを示します。
- 1 ~ 5 の値は、モデル内の特定の予測子変数と他の予測子変数の間に中程度の相関関係があることを示しますが、多くの場合、特別な注意を必要とするほど深刻ではありません。
- 5 より大きい値は、モデル内の特定の予測子変数と他の予測子変数の間に重大な相関関係がある可能性があることを示します。この場合、回帰結果の係数推定値と p 値は信頼できない可能性があります。
たとえば、バスケットボール選手の最大垂直ジャンプを予測するために、予測変数height 、靴のサイズ、および1 日あたりのトレーニングに費やした時間を使用して回帰分析を実行し、次の結果を受け取ったとします。
最後の列では、身長と靴のサイズの VIF 値が両方とも 5 より大きいことがわかります。これは、それらが多重共線性の影響を受けている可能性が高く、それらの係数推定値と p 値が信頼できない可能性が高いことを示しています。
靴のサイズの係数推定値を見ると、身長と練習時間が一定であると仮定すると、靴のサイズがさらに 1 単位増加するごとに、最大垂直ジャンプの平均増加量は -0.67498 インチであることがモデルからわかります。
より大きな靴を履いているプレーヤーの身長が高く、したがって最大垂直ジャンプがより高いと予想されることを考えると、これは意味がないようです。
これは多重共線性の典型的な例であり、係数推定が少々突飛で直感的ではないように見えます。
多重共線性を解決する方法
多重共線性が検出された場合、次のステップは、それを何らかの方法で解決する必要があるかどうかを決定することです。回帰分析の目的によっては、多重共線性を解決する必要がない場合があります。
知っておくべきこと:
1.多重共線性が中程度しかない場合は、おそらくいかなる方法でも解決する必要はありません。
2.多重共線性は、相互に相関がある予測変数にのみ影響します。多重共線性の影響を受けないモデル内の予測変数に興味がある場合、多重共線性は問題になりません。
3.多重共線性は係数推定値と p 値に影響を与えますが、予測や適合度統計には影響しません。つまり、回帰の主な目的が予測を行うことであり、予測変数と応答変数の間の正確な関係を理解することに興味がない場合、多重共線性を解決する必要はありません。
多重共線性を修正する必要があると判断した場合、一般的な解決策には次のようなものがあります。
1. 相関性の高い変数を 1 つ以上削除します。これはほとんどの場合最も迅速な解決策であり、削除する変数はとにかく冗長であり、モデルに固有の情報や独立した情報をほとんど追加しないため、多くの場合は許容可能な解決策です。
2. 予測子変数を何らかの方法で加算または減算するなど、何らかの方法で線形的に結合します。そうすることで、両方の変数からの情報を包含する新しい変数を作成でき、多重共線性の問題はなくなります。
3. 主成分分析や 部分最小二乗 (PLS) 回帰など、相関性の高い変数を考慮した分析を実行します。これらの手法は、相関性の高い予測変数を処理するために特別に設計されています。