Pobieranie próbek z wymianą lub bez wymiany


Często w statystyce chcemy zbierać dane, abyśmy mogli odpowiedzieć na określone pytania badawcze.

Na przykład, możemy chcieć odpowiedzieć na następujące pytania:

1. Jaki jest średni dochód gospodarstwa domowego w Cincinnati w stanie Ohio?

2. Jaka jest średnia waga określonej populacji żółwi?

3. Jaki procent mieszkańców danego powiatu popiera określone prawo?

W każdym scenariuszu chcemy odpowiedzieć na pytanie dotyczące populacji , która reprezentuje wszystkie możliwe indywidualne elementy, które chcemy zmierzyć.

Jednak zamiast zbierać dane na temat każdej osoby w populacji, zazwyczaj zbieramy dane tylko na próbie populacji, która reprezentuje część populacji.

Istnieją dwa różne sposoby pobierania próbek: pobieranie próbek z wymianą i pobieranie próbek bez wymiany .

W tym samouczku wyjaśniono różnicę między tymi dwiema metodami wraz z przykładami wykorzystania każdej z nich w praktyce.

Próbkowanie z wymianą

Załóżmy, że mamy imiona 5 uczniów w kapeluszu:

  • Andy
  • Karol
  • Tylera
  • Beka
  • Jessika

Załóżmy, że chcemy pobrać próbę składającą się z 2 uczniów z zastępstwem.

Na pierwszym rysunku moglibyśmy wybrać imię Tylera. Następnie umieściliśmy jego imię z powrotem w kapeluszu i ponownie losowaliśmy. Na drugim rysunku moglibyśmy ponownie wybrać imię Tylera. Nasza próbka będzie więc: {Tyler, Tyler}

To jest przykład otrzymania próbki z wymianą, ponieważ po każdym rysunku podmieniamy wybraną przez nas nazwę.

Kiedy pobieramy próbkę z zamianą, elementy próbki są niezależne , ponieważ wynik jednego rzutu monetą nie ma wpływu na wynik poprzedniego rzutu monetą.

Na przykład prawdopodobieństwo wybrania imienia Tyler wynosi 1/5 na pierwszym losowaniu i ponownie 1/5 na drugim losowaniu. Wynik pierwszego losowania nie wpływa na prawdopodobieństwo wyniku drugiego losowania.

Próbkowanie z zastępowaniem jest wykorzystywane w wielu różnych scenariuszach w statystyce i uczeniu maszynowym, w tym:

W każdej z tych metod stosuje się próbkowanie z zastępowaniem, ponieważ pozwala ono na wielokrotne wykorzystanie tego samego zbioru danych do budowy modeli, zamiast zbierać nowe dane, co może być czasochłonne i kosztowne.

Próbkowanie bez wymiany

Załóżmy ponownie, że mamy imiona 5 uczniów w kapeluszu:

  • Andy
  • Karol
  • Tylera
  • Beka
  • Jessika

Załóżmy, że chcemy pobrać próbę składającą się z 2 uczniów bez zastępowania.

Na pierwszym rysunku moglibyśmy wybrać imię Tylera. Zostawmy wtedy jego nazwisko na boku. Na drugim rysunku mogliśmy wybrać imię Andy. Nasza próbka będzie zatem wyglądać następująco: {Tyler, Andy}

To jest przykład otrzymania próbki bez wymiany, ponieważ po każdym rysunku nie podmieniamy wybranej przez nas nazwy.

Kiedy pobieramy próbkę bez zastępowania, elementy próbki są zależne , ponieważ na wynik jednego rzutu monetą wpływa poprzedni rzut monetą.

Na przykład prawdopodobieństwo wybrania imienia Tyler w pierwszym losowaniu wynosi 1/5, a prawdopodobieństwo wybrania imienia Andy wynosi 1/4 w drugim losowaniu. Wynik pierwszego losowania wpływa na prawdopodobieństwo wyniku drugiego losowania.

Próbkowanie bez zastępowania to metoda, którą stosujemy, gdy chcemy wybrać losową próbę z populacji.

Na przykład, jeśli chcemy oszacować średni dochód gospodarstwa domowego w Cincinnati w stanie Ohio, może istnieć w sumie 500 000 różnych gospodarstw domowych.

Zatem moglibyśmy chcieć pobrać losową próbę składającą się z 2000 gospodarstw domowych, ale nie chcemy, aby dane żadnego gospodarstwa domowego pojawiły się dwukrotnie w próbie, więc próbowaliśmy bez zastępowania.

Innymi słowy, gdy już wybierzemy już pewne gospodarstwo domowe do próby, nie chcemy mieć szans na ponowne włączenie tego gospodarstwa do próby.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *