統計における等分散仮定とは何ですか?
多くの統計検定では分散が等しいと仮定します。この仮定が尊重されない場合、テスト結果は信頼性が低くなります。
この等分散を仮定する最も一般的な統計検定と手順には、次のものがあります。
1. 分散分析
2. t 検定
3. 線形回帰
このチュートリアルでは、各テストで行われた仮定、その仮定が満たされているかどうかを判断する方法、および仮定に違反した場合の対処方法について説明します。
ANOVA における分散の等価性の仮定
ANOVA (「分散分析」) は、3 つ以上の独立したグループの平均値間に有意な差があるかどうかを判断するために使用されます。
ANOVA を使用できる例を次に示します。
減量実験に参加する人を 90 人募集したとします。 30 名をランダムに割り当て、プログラム A、B、または C を 1 か月間使用します。
プログラムが減量に影響を与えているかどうかを確認するには、一元配置分散分析を実行します。
ANOVA は、各グループの分散が等しいと仮定します。この仮説が正しいかどうかをテストするには 2 つの方法があります。
1. 箱ひげ図を作成します。
箱ひげ図は、分散が等しいという仮定を検証する視覚的な方法を提供します。
各グループの体重減少の分散は、各箱ひげ図の長さによって観察できます。ボックスが長いほど、分散は大きくなります。たとえば、プログラム A およびプログラム B と比較して、プログラム C の参加者の分散がわずかに高いことがわかります。
2. バートレット テストを実行します。
バートレット検定では、サンプルの分散が等しいという帰無仮説と、サンプルの分散が等しいという対立仮説を検定します。
検定の p 値が特定の有意水準 (0.05 など) を下回っている場合、サンプルの分散がすべて等しいわけではないという証拠が得られます。
等分散の仮定が満たされない場合はどうなるのでしょうか?
一般に、 ANOVA は、各グループが同じサンプル サイズである限り、等分散仮定の違反に対してかなり堅牢であると考えられます。
ただし、サンプル サイズが同じではなく、この仮定に大きく違反する場合は、代わりに、一元配置分散分析のノンパラメトリック バージョンであるクラスカル ウォリス検定を実行できます。
t 検定における等分散の仮定
2 標本 t 検定は、 2 つの母集団の平均が等しいかどうかを検定するために使用されます。
この検定では、分散が 2 つのグループ間で等しいと仮定します。この仮説が正しいかどうかをテストするには 2 つの方法があります。
1. 比率の経験則を使用します。
一般に、最大分散と最小分散の比が 4 未満の場合、分散はほぼ等しいと仮定して、2 標本 t 検定を使用できます。
たとえば、サンプル 1 の分散が 24.5、サンプル 2 の分散が 15.2 であるとします。最大サンプル分散と最小サンプル分散の比は、24.5 / 15.2 = 1.61 として計算されます。
この比率が 4 未満であるため、2 つのグループ間の差異はほぼ等しいと想定できます。
2. F 検定を実行します。
F 検定では、サンプルの分散が等しいという帰無仮説と、サンプルの分散が等しいという対立仮説を検定します。
検定の p 値が特定の有意水準 (0.05 など) を下回っている場合、サンプルの分散がすべて等しいわけではないという証拠が得られます。
等分散の仮定が満たされない場合はどうなるのでしょうか?
この仮定に違反する場合は、ウェルチの t 検定を実行できます。これは 2 サンプル t 検定のノンパラメトリック バージョンであり、2 つのサンプルの分散が等しいとは想定されていません。
線形回帰における等分散の仮定
線形回帰は、1 つ以上の予測変数と応答変数の間の関係を定量化するために使用されます。
線形回帰では、予測変数の各レベルで残差の分散が一定であると仮定します。これは等分散性と呼ばれます。そうでない場合、残差には不均一分散性が生じ、回帰分析の結果は信頼性が低くなります。
この仮定が満たされているかどうかを判断する最も一般的な方法は、残差と近似値のプロットを作成することです。このグラフの残差がゼロの周りにランダムに分散しているように見える場合は、等分散性の仮定が満たされている可能性があります。
ただし、次のグラフの「円錐」形状のように、残差に体系的な傾向がある場合は、不均一分散性が問題になります。
等分散の仮定が満たされない場合はどうなるのでしょうか?
この仮定に違反した場合、問題を解決する最も一般的な方法は、次の 3 つの変換のいずれかを使用して応答変数を変換することです。
1. 対数変換:応答変数を y からlog(y)に変換します。
2. 平方根変換:応答変数を y から√yに変換します。
3. 立方根変換:応答変数を y からy 1/3に変換します。
これらの変換を実行すると、不均一分散性の問題は通常解消されます。
不均一分散性を補正するもう 1 つの方法は、加重最小二乗回帰を使用することです。このタイプの回帰では、近似値の分散に基づいて各データ ポイントに重みが割り当てられます。
基本的に、これにより、分散が大きいデータ ポイントに低い重みが与えられ、残差二乗が減少します。適切な重みを使用すると、不均一分散性の問題を解決できます。