置換ありまたは置換なしのサンプリング
統計では、特定の研究上の疑問に答えるためにデータを収集することがよくあります。
たとえば、次のような質問に答えたいと思うかもしれません。
1.オハイオ州シンシナティの世帯収入の中央値はいくらですか?
2.特定のカメの個体群の平均体重はどれくらいですか?
3.特定の郡の住民の何パーセントが特定の法律を支持していますか?
各シナリオでは、測定したいすべての考えられる個々の要素を表す 母集団に関する質問に答えたいと考えています。
ただし、母集団内のすべての個人に関するデータを収集するのではなく、通常は母集団の一部を表す母集団のサンプルに関するデータのみを収集します。
サンプルを収集するには、置換を伴うサンプリングと置換を行わないサンプリングの 2 つの異なる方法があります。
このチュートリアルでは、2 つの方法の違いを、実際にそれぞれを使用する方法の例とともに説明します。
交換を伴うサンプリング
帽子をかぶった 5 人の生徒の名前があるとします。
- アンディ
- カール
- タイラー
- ベッカ
- ジェシカ
2 人の生徒を置換してサンプルとして抽出したいとします。
最初の描画では、Tyler の名前を選択するかもしれません。それから私たちは彼の名前を帽子に戻し、再び絵を描きました。 2 番目の描画では、再び Tyler の名前を選択する可能性があります。したがって、サンプルは次のようになります: {Tyler, Tyler}
これは、描画のたびに選択した名前を置き換えるので、置き換えてサンプルを取得した例です。
置換を使用してサンプリングする場合、1 回のコイン トスの結果は前のコイン トスの影響を受けないため、サンプル要素は独立しています。
たとえば、Tyler という名前が選択される確率は、最初の抽選では 1/5 ですが、2 回目の抽選でも 1/5 になります。最初の抽選の結果は、2 回目の抽選の結果の確率には影響しません。
置換を伴うサンプリングは、次のような統計と機械学習のさまざまなシナリオで使用されます。
これらの各方法では、時間とコストがかかる新しいデータを収集する代わりに、同じデータセットを複数回使用してモデルを構築できるため、置換付きサンプリングが使用されます。
置換なしのサンプリング
もう一度、帽子をかぶった 5 人の生徒の名前があるとします。
- アンディ
- カール
- タイラー
- ベッカ
- ジェシカ
2 人の生徒のサンプルを非復元で抽出したいとします。
最初の描画では、Tyler の名前を選択するかもしれません。その場合、私たちは彼の名前を脇に置きます。 2 番目の描画では、Andy という名前を選択できます。したがって、サンプルは次のようになります: {Tyler, Andy}
これは、各描画後に選択した名前を置換しないため、置換せずにサンプルを取得した例です。
非置換でサンプリングすると、1 回のコイン投げの結果が前のコイン投げの影響を受けるため、サンプル要素は依存します。
たとえば、最初の抽選で Tyler という名前が選択される確率は 1/5 で、2 回目の抽選では Andy という名前が選択される確率は 1/4 です。最初の抽選の結果は、2 回目の抽選の結果の確率に影響します。
非置換抽出は、母集団から 無作為にサンプルを選択する場合に使用する方法です。
たとえば、オハイオ州シンシナティの世帯収入の中央値を推定したい場合、合計 500,000 の異なる世帯が存在する可能性があります。
したがって、2,000 世帯の無作為サンプルを収集したい場合がありますが、特定の世帯のデータがサンプル内に 2 回出現することは望ましくないので、非復元抽出を行います。
言い換えれば、サンプルに含める特定の世帯を選択した後は、その世帯を再度含める機会を与えたくないのです。