サンプル平均と母集団平均: 違いは何ですか?
統計では、次のような質問に答えたいことがよくあります。
- ある都市の平均世帯収入はいくらですか?
- 特定の種のカメの平均体重はどれくらいですか?
- 大学フットボールの試合の平均入場者数はどれくらいですか?
各シナリオでは、測定したいすべての考えられる個々の要素を表す母集団に関する質問に答えたいと考えています。
ただし、母集団内の各個人に関するデータを収集するのではなく、母集団全体の一部を表す母集団のサンプルに関するデータを収集します。
たとえば、合計 800 匹のカメがいる特定の種類のカメの平均体重を知りたい場合があります。
集団内のすべてのカメを見つけて体重を量るには時間がかかりすぎるため、代わりに 30 匹のカメの単純な無作為サンプルを収集し、その体重を測定します。
次に、このカメのサンプルの平均体重を使用して、母集団内のすべてのカメの平均体重を推定できます。
サンプル平均の計算方法
標本平均を計算する式は、多くの場合xで表され、次のとおりです。
x = Σx i / n
金:
- Σ: 「和」を意味する洗練されたギリシャ語の記号
- x i :データセット内の i 番目の観測値
- n:サンプルサイズ
たとえば、次の体重 (ポンド単位) を持つ 10 匹のカメのサンプルを収集するとします。
- 70、80、80、85、90、95、110、120、140、150
サンプル平均は次のように計算されます。
- x = (70+80+80+85+90+95+110+120+140+150) / 10 = 102
標本平均値に偏りがない理由
統計の専門用語では、標本の平均は統計量であり、母集団の平均はパラメータであると言えます。
2 つの用語の違いは次のとおりです。
統計量は、サンプルの特定の特性を説明する数値です。
パラメータは、母集団の特性を説明する数値です。
パラメータは実際に測定したい値ですが、統計値は取得がはるかに簡単であるため、パラメータの値を推定するために使用する値です。
単純無作為抽出などの方法を使用してサンプルを取得する場合、サンプル平均は母集団平均の不偏推定量であると言われます。
言い換えれば、標本平均が母集団の真の平均を過小評価または過大評価すると信じる理由はありません。
その理由は、単純な無作為抽出などの方法を使用すると、母集団の各メンバーがサンプルに含まれる確率が等しいためです。これは、サンプルが母集団全体の「ミニバージョン」である可能性が高いことを意味するためです。 。
サンプルは母集団全体を代表していると言えます。つまり、サンプルサイズが十分に大きいと仮定すると、サンプル平均は母集団平均の適切な推定値になるはずです。
サンプル平均値での信頼区間の使用について
標本平均は母集団平均の不偏推定値を提供しますが、母集団平均と正確に一致する可能性は低いです。
たとえば、カメのサンプルを使用してカメの個体群の平均体重を推定したい場合、体重の軽いカメで満たされたサンプルを選択するか、重いカメで満たされたサンプルを選択する可能性があります。
母平均の推定値に関するこの不確実性を捉えるために、信頼区間を作成できます。
信頼区間は、一定の信頼レベルで母集団パラメータが含まれる可能性が高い値の範囲です。
たとえば、30 匹のカメのサンプルを収集し、そのサンプルの平均体重が 102 ポンドであることが判明するとします。次に 95% 信頼区間を構築すると、その区間は次のようになります。
95% 信頼区間 = [98.5, 105.5]
これは、[98.5, 105.5] の信頼区間にカメ個体群の真の平均体重が含まれる確率が 95% あることを意味すると解釈します。
この信頼区間は、母集団の真の平均が存在する可能性が高い値の範囲を与えるため、単純なサンプル平均よりも役立ちます。