回帰分析における不均一分散性の理解


回帰分析では、不均一分散性(不均一分散性と綴られる場合もあります) は、残差または誤差項の不均等な分散を指します。より正確には、これは測定値の範囲全体にわたって残差の分布に系統的な変化がある場合です。

通常最小二乗法 (OLS) 回帰では、残差が等分散性 (分散が一定であることを意味する) を持つ母集団から得られると想定されるため、不均一分散性が問題になります。

回帰分析に不均一分散性が存在する場合、分析結果は信じられなくなります。具体的には、不均一分散性により回帰係数推定値の分散が増加しますが、回帰モデルではそれが考慮されていません。

これにより、実際にはそうではないにもかかわらず、回帰モデルがモデル内の項が統計的に有意であると主張する可能性が非常に高くなります。

このチュートリアルでは、不均一分散性を検出する方法、不均一分散性の原因、および不均一分散性の問題を解決する考えられる方法について説明します。

不均一分散性を検出する方法

不均一分散性を検出する最も簡単な方法は、近似値/残差プロットを使用することです。

回帰直線をデータセットに当てはめると、それらの当てはめ値の残差に対するモデルの当てはめ値を示す散布図を作成できます。

以下の散布図は、不均一分散が存在する近似値と残差の典型的なプロットを示しています。

近似値が増加するにつれて残差がどのように広がるかに注目してください。この「円錐」の形状は、不均一分散性の明らかな兆候です。

不均一分散性の原因は何ですか?

不均一分散性は、観測されたデータ値が広範囲にわたるデータ セットで自然に発生します。例えば:

  • 米国の 100,000 人の年間収入と支出を含むデータ セットを考えてみましょう。収入が低い人々の場合、必需品を支払うのに十分なお金しか持っていない可能性が高いため、対応する支出の変動は小さくなります。収入が高い個人の場合、希望に応じてより多くのお金を使えるようになるため、対応する支出の変動が大きくなります。高収入の人の中には、収入のほとんどを使うことを選択する人もいますが、他の人は倹約して一部だけを使うことを選択する人もいます。したがって、これらの高所得者間の支出のばらつきは本質的に大きくなります。
  • 米国の 1,000 の異なる都市の人口と花屋の数を含むデータセットを考えてみましょう。人口の少ない町では、花屋が 1 軒か 2 軒しかないのが一般的かもしれません。しかし、人口の多い都市では、花屋の数はさらに変動します。これらの町には 10 ~ 100 の店舗が存在します。これは、回帰分析を作成し、人口を使用して花屋の数を予測する場合、人口が多い都市ほど残差のばらつきが本質的に大きくなるということを意味します。

一部のデータセットは、他のデータセットよりも単純に不均一分散が起こりやすいものがあります。

不均一分散性を修正する方法

不均一分散性を補正するには、次の 3 つの一般的な方法があります。

1. 従属変数を変換する

不均一分散性を補正する 1 つの方法は、従属変数を何らかの方法で変換することです。一般的な変換は、単純に従属変数のログを取得することです。

たとえば、人口サイズ (独立変数) を使用して都市の花屋の数 (従属変数) を予測する場合、代わりに人口サイズを使用して町の花屋の数の対数を予測してみることができます。

元の従属変数ではなく従属変数の対数を使用すると、不均一分散性が消えることがよくあります。

2. 従属変数を再定義する

不均一分散性を修正するもう 1 つの方法は、従属変数を再定義することです。これを行う一般的な方法は、生の値ではなく、従属変数の比率を使用することです。

たとえば、人口規模を使用して都市の花屋の数を予測する代わりに、人口規模を使用して 1 人あたりの花屋の数を予測できます。

ほとんどの場合、花屋の数自体ではなく、一人あたりの花屋の数を測定しているため、これにより、より大きな集団内で自然に発生する変動が軽減されます。

3. 加重回帰を使用する

不均一分散性を補正するもう 1 つの方法は、重み付き回帰を使用することです。このタイプの回帰では、近似値の分散に基づいて各データ ポイントに重みが割り当てられます。

基本的に、これにより、分散が大きいデータ ポイントに低い重みが与えられ、残差二乗が減少します。適切な重みを使用すると、不均一分散性の問題を解決できます。

結論

多くのデータセットは本質的に非定常分散の影響を受けるため、回帰分析に関しては不均一分散性がかなり一般的な問題となります。

ただし、近似値プロットと残差プロットを使用すると、不均一分散性を非常に簡単に特定できます。

そして、従属変数を変換したり、従属変数を再定義したり、加重回帰を使用したりすることによって、不均一分散性の問題を解決できることがよくあります。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です