置換ありまたは置換なしのサンプリング

によるベンジャミン・アンダーソン博士 7月 26, 2023 ガイド 0コメント

統計では、特定の研究上の疑問に答えるためにデータを収集することがよくあります。

たとえば、次のような質問に答えたいと思うかもしれません。

1.オハイオ州シンシナティの世帯収入の中央値はいくらですか?

2.特定のカメの個体群の平均体重はどれくらいですか?

3.特定の郡の住民の何パーセントが特定の法律を支持していますか?

各シナリオでは、測定したいすべての考えられる個々の要素を表す母集団に関する質問に答えたいと考えています。

ただし、母集団内のすべての個人に関するデータを収集するのではなく、通常は母集団の一部を表す母集団のサンプルに関するデータのみを収集します。

サンプルを収集するには、置換を伴うサンプリングと置換を行わないサンプリングの 2 つの異なる方法があります。

このチュートリアルでは、2 つの方法の違いを、実際にそれぞれを使用する方法の例とともに説明します。

交換を伴うサンプリング

帽子をかぶった 5 人の生徒の名前があるとします。

2 人の生徒を置換してサンプルとして抽出したいとします。

最初の描画では、Tyler の名前を選択するかもしれません。それから私たちは彼の名前を帽子に戻し、再び絵を描きました。 2 番目の描画では、再び Tyler の名前を選択する可能性があります。したがって、サンプルは次のようになります: {Tyler, Tyler}

これは、描画のたびに選択した名前を置き換えるので、置き換えてサンプルを取得した例です。

置換を使用してサンプリングする場合、1 回のコイントスの結果は前のコイントスの影響を受けないため、サンプル要素は独立しています。

たとえば、Tyler という名前が選択される確率は、最初の抽選では 1/5 ですが、2 回目の抽選でも 1/5 になります。最初の抽選の結果は、2 回目の抽選の結果の確率には影響しません。

置換を伴うサンプリングは、次のような統計と機械学習のさまざまなシナリオで使用されます。

これらの各方法では、時間とコストがかかる新しいデータを収集する代わりに、同じデータセットを複数回使用してモデルを構築できるため、置換付きサンプリングが使用されます。

もう一度、帽子をかぶった 5 人の生徒の名前があるとします。

2 人の生徒のサンプルを非復元で抽出したいとします。

最初の描画では、Tyler の名前を選択するかもしれません。その場合、私たちは彼の名前を脇に置きます。 2 番目の描画では、Andy という名前を選択できます。したがって、サンプルは次のようになります: {Tyler, Andy}

これは、各描画後に選択した名前を置換しないため、置換せずにサンプルを取得した例です。

非置換でサンプリングすると、1 回のコイン投げの結果が前のコイン投げの影響を受けるため、サンプル要素は依存します。

たとえば、最初の抽選で Tyler という名前が選択される確率は 1/5 で、2 回目の抽選では Andy という名前が選択される確率は 1/4 です。最初の抽選の結果は、2 回目の抽選の結果の確率に影響します。

非置換抽出は、母集団から無作為にサンプルを選択する場合に使用する方法です。

たとえば、オハイオ州シンシナティの世帯収入の中央値を推定したい場合、合計 500,000 の異なる世帯が存在する可能性があります。

したがって、2,000 世帯の無作為サンプルを収集したい場合がありますが、特定の世帯のデータがサンプル内に 2 回出現することは望ましくないので、非復元抽出を行います。

言い換えれば、サンプルに含める特定の世帯を選択した後は、その世帯を再度含める機会を与えたくないのです。

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る