置換ありまたは置換なしのサンプリング


統計では、特定の研究上の疑問に答えるためにデータを収集することがよくあります。

たとえば、次のような質問に答えたいと思うかもしれません。

1.オハイオ州シンシナティの世帯収入の中央値はいくらですか?

2.特定のカメの個体群の平均体重はどれくらいですか?

3.特定の郡の住民の何パーセントが特定の法律を支持していますか?

各シナリオでは、測定したいすべての考えられる個々の要素を表す 母集団に関する質問に答えたいと考えています。

ただし、母集団内のすべての個人に関するデータを収集するのではなく、通常は母集団の一部を表す母集団のサンプルに関するデータのみを収集します。

サンプルを収集するには、置換を伴うサンプリング置換を行わないサンプリングの 2 つの異なる方法があります。

このチュートリアルでは、2 つの方法の違いを、実際にそれぞれを使用する方法の例とともに説明します。

交換を伴うサンプリング

帽子をかぶった 5 人の生徒の名前があるとします。

  • アンディ
  • カール
  • タイラー
  • ベッカ
  • ジェシカ

2 人の生徒を置換してサンプルとして抽出したいとします。

最初の描画では、Tyler の名前を選択するかもしれません。それから私たちは彼の名前を帽子に戻し、再び絵を描きました。 2 番目の描画では、再び Tyler の名前を選択する可能性があります。したがって、サンプルは次のようになります: {Tyler, Tyler}

これは、描画のたびに選択した名前を置き換えるので、置き換えてサンプルを取得した例です。

置換を使用してサンプリングする場合、1 回のコイン トスの結果は前のコイン トスの影響を受けないため、サンプル要素は独立しています。

たとえば、Tyler という名前が選択される確率は、最初の抽選では 1/5 ですが、2 回目の抽選でも 1/5 になります。最初の抽選の結果は、2 回目の抽選の結果の確率には影響しません。

置換を伴うサンプリングは、次のような統計と機械学習のさまざまなシナリオで使用されます。

これらの各方法では、時間とコストがかかる新しいデータを収集する代わりに、同じデータセットを複数回使用してモデルを構築できるため、置換付きサンプリングが使用されます。

置換なしのサンプリング

もう一度、帽子をかぶった 5 人の生徒の名前があるとします。

  • アンディ
  • カール
  • タイラー
  • ベッカ
  • ジェシカ

2 人の生徒のサンプルを非復元で抽出したいとします。

最初の描画では、Tyler の名前を選択するかもしれません。その場合、私たちは彼の名前を脇に置きます。 2 番目の描画では、Andy という名前を選択できます。したがって、サンプルは次のようになります: {Tyler, Andy}

これは、各描画後に選択した名前を置換しないため、置換せずにサンプルを取得した例です。

非置換でサンプリングすると、1 回のコイン投げの結果が前のコイン投げの影響を受けるため、サンプル要素は依存します。

たとえば、最初の抽選で Tyler という名前が選択される確率は 1/5 で、2 回目の抽選では Andy という名前が選択される確率は 1/4 です。最初の抽選の結果は、2 回目の抽選の結果の確率に影響します。

非置換抽出は、母集団から 無作為にサンプルを選択する場合に使用する方法です。

たとえば、オハイオ州シンシナティの世帯収入の中央値を推定したい場合、合計 500,000 の異なる世帯が存在する可能性があります。

したがって、2,000 世帯の無作為サンプルを収集したい場合がありますが、特定の世帯のデータがサンプル内に 2 回出現することは望ましくないので、非復元抽出を行います。

言い換えれば、サンプルに含める特定の世帯を選択した後は、その世帯を再度含める機会を与えたくないのです。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です