統計における独立性の仮定とは何ですか?
多くの統計的テストは、観測値が独立していることを前提としています。これは、データセット内の観測値が互いに関連していないか、何らかの形で相互に影響を与えていないことを意味します。
たとえば、2 種類の猫の間に平均体重に違いがあるかどうかをテストしたいとします。種 A の猫 10 匹と種 B の猫 10 匹の体重を測定した場合、それぞれの猫のグループが同じ同腹子から生まれた場合、独立性の仮定に違反することになります。
種Aの母猫には体重の軽い子猫ばかりがいたのに対し、種Bの母猫には体重の重い子猫がいただけである可能性があります。この点において、各サンプルの観察は互いに独立していません。
この独立性を仮定する統計検定には、次の 3 つの一般的なタイプがあります。
1. 2 サンプルの t 検定
2. ANOVA (分散分析)
3.線形回帰
次のセクションでは、テストの種類ごとにこの仮定が行われる理由と、この仮定が満たされているかどうかを判断する方法について説明します。
t 検定における独立性の仮定
2 標本 t 検定は、 2 つの母集団の平均が等しいかどうかを検定するために使用されます。
仮定:このタイプのテストは、各サンプル内の観測値が互いに独立しており、サンプル間の観測値も互いに独立していることを前提としています。
この仮説をテストする:この仮説をテストする最も簡単な方法は、各観測値が各サンプルに 1 回だけ出現すること、および各サンプルの観測値がランダム サンプリングによって収集されたことを検証することです。
ANOVA における独立性の仮定
ANOVAは、3 つ以上の独立したグループの平均間に有意な差があるかどうかを判断するために使用されます。
仮定: ANOVA は、各グループの観測値が互いに独立しており、グループ内の観測値がランダム サンプルによって取得されたものであると仮定します。
この仮説をテストする: t 検定と同様に、この仮説をテストする最も簡単な方法は、各観測値が各サンプルに 1 回だけ出現すること、および各サンプルの観測値がランダム サンプリングによって収集されたことを検証することです。
仮定された回帰における独立性
線形回帰は、 1 つ以上の予測変数と応答変数の間の関係を理解するために使用されます。
仮定:線形回帰では、近似されたモデルの残差が独立していると仮定します。
この仮説をテストする:この仮説をテストする最も簡単な方法は、残差の時系列プロット (残差対時間のプロット) を確認することです。理想的には、ほとんどの残差自己相関は、ゼロ付近の 95% 信頼帯内に収まる必要があります。これは、 nの平方根で約 +/- 2 に位置します ( nはサンプル サイズ)。 ダービン-ワトソン テストを使用して、この仮定が満たされるかどうかを正式にテストすることもできます。
非独立性の一般的な原因
データセットの非独立性の一般的な原因は 3 つあります。
1. 観測は時間内にまとめて終了します。
たとえば、研究者は、特定の道路を走行する車の平均速度に関するデータを収集するとします。夕方に速度を追跡することを選択した場合、すべてのドライバーが仕事から急いで帰宅しているため、平均速度が予想よりもはるかに高いことがわかるかもしれません。
これらのデータは、各観測値が独立しているという前提に反しています。各観測は同じ時間帯に観測されたため、各車の速度は同様であると考えられます。
2. 観測は空間内で閉じられています。
たとえば、研究者は、便利なので、同じ高所得地域に住んでいる人々から年収データを収集するとします。
この点に関して、データ サンプルに含まれるすべての人々は、互いに近くに住んでいるため、同様の収入を持っている可能性があります。これは、各観測が独立しているという仮定に違反します。
3. 観測値は同じデータセット内に複数回表示されます。
たとえば、研究者は 50 人の個人のデータを収集する必要がある場合、その方がはるかに簡単であるため、代わりに 25 人の個人のデータを 2 回収集することにします。
データセット内の各観測値はそれ自体に関連しているため、これは独立性の仮定に違反します。
独立性の前提に違反しないようにするにはどうすればよいか
独立性の仮定に違反しないようにする最も簡単な方法は、母集団からサンプルを取得するときに 単純なランダム サンプリングを使用することです。
この方法を使用すると、対象 母集団の各個人がサンプルに含まれる可能性が均等になります。
たとえば、関心のある母集団に 10,000 人の個人が含まれている場合、母集団内の各個人にランダムに番号を割り当て、乱数発生器を使用して 40 個の乱数を選択できます。これらの数値に一致する個人がサンプルに含まれることになります。
この方法を使用することで、互いに非常に近い、または何らかの関係がある可能性のある 2 人の個人を選択する可能性を最小限に抑えます。
これは、次のような他のサンプリング方法とはまったく対照的です。
- 利便性サンプリング:簡単にアクセスできる個人をサンプルに含めます。
- 自発的サンプリング:サンプルに含めることを自発的に希望する個人をサンプルに含めます。
ランダムなサンプリング方法を使用することで、独立性の仮定に違反する可能性を最小限に抑えることができます。
追加リソース
T 検定で定式化された 4 つの仮説
線形回帰の 4 つの仮定
ANOVA の 3 つの仮説
代表的なサンプルとは何ですか? それが重要な理由は何ですか?