多重共線性
この記事では、統計における多重共線性とは何かについて説明します。したがって、多重共線性がいつ存在するか、多重共線性の結果は何か、多重共線性を特定する方法、そして最終的にはこの問題を解決する方法がわかります。
多重共線性とは何ですか?
多重共線性は、回帰モデル内の 2 つ以上の説明変数に高い相関がある場合に発生する状況です。言い換えれば、回帰モデルでは、モデル内の 2 つ以上の変数間の関係が非常に強い場合に多重共線性が存在します。
たとえば、国の平均余命を人口規模および GDP に関連付ける回帰モデルを実行すると、これら 2 つの変数は一般に強い相関があるため、人口規模と GDP の間に多重共線性が確実に発生します。相関がある。したがって、各変数が平均寿命に与える影響を分析することは困難です。
論理的には、モデル内の変数は常に相互に相関します。変数間に非相関が生じるのは、牧歌的なプロセスにおいてのみです。ただし、私たちが興味があるのは、変数間の相関関係が低いことです。そうでない場合、応答変数に対する各説明変数の影響を知ることができません。
多重共線性の主な原因は一般に、サンプルのサイズが小さいこと、説明変数間の因果関係の存在、または観測値の変動性が低いことです。
多重共線性の種類
多重共線性には 2 つのタイプがあります。
- 正確な多重共線性: 1 つ以上の変数が他の変数の線形結合である場合。この場合、多重共線性変数間の相関係数は 1 に等しくなります。
- 近似多重共線性: 変数間に線形結合はありませんが、2 つ以上の変数間の決定係数は 1 に非常に近いため、相関性が高くなります。
多重共線性の結果
- 相関変数が追加されるとモデルの回帰係数の値が変化するため、結果の回帰モデルの解釈が困難になります。
- パラメータ推定の精度が低下するため、回帰係数の標準誤差が増加します。
- 多重共線性を引き起こす変数の一部は確実に冗長であるため、それらをモデルに含める必要はありません。
- 過剰適合の状況に陥る可能性があります。つまり、モデルが過剰適合しているため、予測には役に立ちません。
- 回帰係数のp 値の信頼性が低くなります。したがって、回帰モデルにどの変数を含めるか、どの変数を削除するかを決定することはより困難になります。
多重共線性を検出する方法
多重共線性を特定する 1 つの方法は、相関行列 を計算することです。相関行列にはすべての変数間の相関係数が含まれており、したがって、変数のペアに相関性が高いかどうかを観察できるためです。
ただし、相関行列を使用すると、2 つの変数が相互に関連しているかどうかのみを知ることができ、一連の変数間に組み合わせがあるかどうかを知ることはできません。これを行うために、通常、分散インフレ係数が計算されます。
分散インフレ係数 (VIF) は、分散インフレ係数 (VIF)とも呼ばれ、説明変数ごとに計算される統計係数であり、特定の説明変数と他の変数の相関関係を示します。具体的には次のような式になります。
金
変数 iy の分散のインフレ係数です
変数 i を従属変数とし、残りの変数を独立変数とする回帰モデルの決定係数です。
したがって、得られた分散膨張係数の値に応じて、多重共線性があるかどうかを知ることができます。
- VIF = 1 : 分散膨張係数が 1 に等しい場合、従属変数と他の変数の間に相関関係がないことを意味します。
- 1 < IVF < 5 : 変数間に相関関係がありますが、中程度です。原則として、多重共線性を修正するためのアクションを適用する必要はありません。
- VIF > 5 : 分散膨張係数が 1 より大きい場合、モデルの多重共線性が高いことを意味するため、多重共線性を解決する必要があります。
実際には、各変数の回帰モデルを作成し、手動で係数値を見つけるには長い時間がかかるため、通常、分散膨張係数はコンピューター ソフトウェアを使用して計算されます。
多重共線性を修正する
回帰モデルの多重共線性の問題を解決するには、次の対策が役立ちます。
- サンプルサイズが小さい場合、データ数を増やすと、おおよその多重共線性が低下する可能性があります。
- 多重共線性を生み出すすべての変数を削除します。変数の相関性が高い場合、モデル内で失われる情報はほとんどなくなり、多重共線性が減少します。
- 部分最小二乗 (PLS) 基準を適用して回帰モデルを作成します。
- 場合によっては、多重共線性がある回帰モデルをそのままにしておくことができます。たとえば、予測を行うためのモデルを作成するだけで、それを解釈する必要がない場合は、多重共線性パターンが繰り返されると仮定して、モデル方程式を使用して、新しい観測値で従属変数の値を予測できます。新しい観察では。