Pobieranie próbek z wymianą lub bez wymiany
Często w statystyce chcemy zbierać dane, abyśmy mogli odpowiedzieć na określone pytania badawcze.
Na przykład, możemy chcieć odpowiedzieć na następujące pytania:
1. Jaki jest średni dochód gospodarstwa domowego w Cincinnati w stanie Ohio?
2. Jaka jest średnia waga określonej populacji żółwi?
3. Jaki procent mieszkańców danego powiatu popiera określone prawo?
W każdym scenariuszu chcemy odpowiedzieć na pytanie dotyczące populacji , która reprezentuje wszystkie możliwe indywidualne elementy, które chcemy zmierzyć.
Jednak zamiast zbierać dane na temat każdej osoby w populacji, zazwyczaj zbieramy dane tylko na próbie populacji, która reprezentuje część populacji.
Istnieją dwa różne sposoby pobierania próbek: pobieranie próbek z wymianą i pobieranie próbek bez wymiany .
W tym samouczku wyjaśniono różnicę między tymi dwiema metodami wraz z przykładami wykorzystania każdej z nich w praktyce.
Próbkowanie z wymianą
Załóżmy, że mamy imiona 5 uczniów w kapeluszu:
- Andy
- Karol
- Tylera
- Beka
- Jessika
Załóżmy, że chcemy pobrać próbę składającą się z 2 uczniów z zastępstwem.
Na pierwszym rysunku moglibyśmy wybrać imię Tylera. Następnie umieściliśmy jego imię z powrotem w kapeluszu i ponownie losowaliśmy. Na drugim rysunku moglibyśmy ponownie wybrać imię Tylera. Nasza próbka będzie więc: {Tyler, Tyler}
To jest przykład otrzymania próbki z wymianą, ponieważ po każdym rysunku podmieniamy wybraną przez nas nazwę.
Kiedy pobieramy próbkę z zamianą, elementy próbki są niezależne , ponieważ wynik jednego rzutu monetą nie ma wpływu na wynik poprzedniego rzutu monetą.
Na przykład prawdopodobieństwo wybrania imienia Tyler wynosi 1/5 na pierwszym losowaniu i ponownie 1/5 na drugim losowaniu. Wynik pierwszego losowania nie wpływa na prawdopodobieństwo wyniku drugiego losowania.
Próbkowanie z zastępowaniem jest wykorzystywane w wielu różnych scenariuszach w statystyce i uczeniu maszynowym, w tym:
- Podkładowy
- Parcianka
- Proste wprowadzenie do usprawniania uczenia maszynowego
- Proste wprowadzenie do losowych lasów
W każdej z tych metod stosuje się próbkowanie z zastępowaniem, ponieważ pozwala ono na wielokrotne wykorzystanie tego samego zbioru danych do budowy modeli, zamiast zbierać nowe dane, co może być czasochłonne i kosztowne.
Próbkowanie bez wymiany
Załóżmy ponownie, że mamy imiona 5 uczniów w kapeluszu:
- Andy
- Karol
- Tylera
- Beka
- Jessika
Załóżmy, że chcemy pobrać próbę składającą się z 2 uczniów bez zastępowania.
Na pierwszym rysunku moglibyśmy wybrać imię Tylera. Zostawmy wtedy jego nazwisko na boku. Na drugim rysunku mogliśmy wybrać imię Andy. Nasza próbka będzie zatem wyglądać następująco: {Tyler, Andy}
To jest przykład otrzymania próbki bez wymiany, ponieważ po każdym rysunku nie podmieniamy wybranej przez nas nazwy.
Kiedy pobieramy próbkę bez zastępowania, elementy próbki są zależne , ponieważ na wynik jednego rzutu monetą wpływa poprzedni rzut monetą.
Na przykład prawdopodobieństwo wybrania imienia Tyler w pierwszym losowaniu wynosi 1/5, a prawdopodobieństwo wybrania imienia Andy wynosi 1/4 w drugim losowaniu. Wynik pierwszego losowania wpływa na prawdopodobieństwo wyniku drugiego losowania.
Próbkowanie bez zastępowania to metoda, którą stosujemy, gdy chcemy wybrać losową próbę z populacji.
Na przykład, jeśli chcemy oszacować średni dochód gospodarstwa domowego w Cincinnati w stanie Ohio, może istnieć w sumie 500 000 różnych gospodarstw domowych.
Zatem moglibyśmy chcieć pobrać losową próbę składającą się z 2000 gospodarstw domowych, ale nie chcemy, aby dane żadnego gospodarstwa domowego pojawiły się dwukrotnie w próbie, więc próbowaliśmy bez zastępowania.
Innymi słowy, gdy już wybierzemy już pewne gospodarstwo domowe do próby, nie chcemy mieć szans na ponowne włączenie tego gospodarstwa do próby.