Próbkowanie klastrów w pandach: z przykładami
Naukowcy często pobierają próbki z populacji i wykorzystują dane z próbki do wyciągania wniosków na temat populacji jako całości.
Powszechnie stosowaną metodą próbkowania jest próbkowanie klastrów , podczas którego populacja jest dzielona na skupienia, a do włączenia do próby wybierani są wszyscy członkowie określonych skupień.
W tym samouczku wyjaśniono, jak wykonywać próbkowanie klastrów na ramce DataFrame pand w języku Python.
Przykład: próbkowanie klastrów w Pandach
Załóżmy, że firma oferująca wycieczki po mieście chce przeprowadzić ankietę wśród swoich klientów. Spośród dziesięciu wycieczek, które oferują dziennie, losowo wybierają cztery wycieczki i proszą każdego klienta o ocenę swoich wrażeń w skali od 1 do 10.
Poniższy kod pokazuje, jak utworzyć ramkę DataFrame pandy do pracy:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
Poniższy kod pokazuje, jak uzyskać próbkę klientów, wybierając losowo cztery wizyty i włączając do próby każdego uczestnika tych wizyt:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
Z wyniku możemy zobaczyć, że:
- Do próby włączono 20 klientów z grupy wycieczkowej nr 10.
- Do próby włączono 20 klientów z grupy turystycznej nr 6.
- Do próby włączono 20 klientów z grupy turystycznej nr 5.
- Do próby włączono 20 klientów z grupy turystycznej nr 3.
Zatem próba ta składa się łącznie z 80 klientów z 4 różnych grup turystycznych.
Dodatkowe zasoby
Zrozumienie różnych typów metod pobierania próbek
Próbkowanie warstwowe u pand
Systematyczne pobieranie próbek pand