大規模サンプルの条件: 定義と例


統計では、 サンプルを使用して、仮説検定信頼区間を通じて母集団に関する結論を導き出すことがよくあります。

仮説検定や信頼区間で使用する式のほとんどは、特定のサンプルがおおよそ正規分布に従うことを前提としています。

ただし、この仮説を安全に定式化するには、サンプル サイズが十分に大きいことを確認する必要があります。具体的には、大規模サンプル条件が満たされていることを確認する必要があります。

大規模サンプル条件:サンプル サイズは少なくとも 30 です。

注:一部の教科書では、「十分に大きい」サンプル サイズは少なくとも 40 と定義されていますが、より一般的には 30 という数字が使用されます。

この条件が満たされる場合、標本平均値の標本分布はほぼ正規分布していると仮定できます。この仮定により、サンプルを使用して、サンプルが抽出された母集団についての結論を引き出すことができます。

30 という数字が使用される理由は、中心極限定理に基づいています。詳細については、この ブログ投稿をご覧ください。

例: 大量のサンプルのステータスを確認する

ある機械がクラッカーを製造すると仮定します。これらのクッキーの重量分布は右に偏っており、平均は 10 オンス、標準偏差は 2 オンスです。この機械で製造された 100 個のクッキーの単純なランダム サンプルを取得した場合、このサンプル内のクッキーの平均重量が 9.8 オンス未満である確率はどれくらいですか?

この質問に答えるには、 通常の CDF 計算ツールを使用できますが、最初に、サンプル平均の分布が正規であると仮定できるほどサンプル サイズが大きいことを確認する必要があります。

この例では、サンプル サイズはn = 100で、30 よりもはるかに大きくなります。実際の Cookie の重み分布が右に偏っているにもかかわらず、サンプル サイズが「十分に大きい」ため、分布が次のように仮定できます。サンプリング平均値は正常です。したがって、この問題を解決するには通常の CDF 計算機を安全に使用できます。

大きなサンプルの状態の変化

多くの場合、サンプル サイズは 30 以上であれば「十分大きい」とみなされますが、この数値は母集団分布の基礎となる形状に応じて若干変化する場合があります。

特に:

  • 母集団の分布が対称的である場合、サンプル サイズが 15 程度で十分な場合があります。
  • 母集団の分布が偏っている場合、通常は少なくとも 30 人のサンプルが必要です。
  • 人口分布が極端に偏っている場合は、40 人以上のサンプルが必要になる場合があります。

母集団の分布の形状に応じて、中心極限定理を適用するにはサンプル サイズが 30 より大きいか小さい必要がある場合があります。

追加リソース

中心極限定理の概要
標本分布の概要

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です