Próbkowanie klastrów w pandach: z przykładami


Naukowcy często pobierają próbki z populacji i wykorzystują dane z próbki do wyciągania wniosków na temat populacji jako całości.

Powszechnie stosowaną metodą próbkowania jest próbkowanie klastrów , podczas którego populacja jest dzielona na skupienia, a do włączenia do próby wybierani są wszyscy członkowie określonych skupień.

W tym samouczku wyjaśniono, jak wykonywać próbkowanie klastrów na ramce DataFrame pand w języku Python.

Przykład: próbkowanie klastrów w Pandach

Załóżmy, że firma oferująca wycieczki po mieście chce przeprowadzić ankietę wśród swoich klientów. Spośród dziesięciu wycieczek, które oferują dziennie, losowo wybierają cztery wycieczki i proszą każdego klienta o ocenę swoich wrażeń w skali od 1 do 10.

Poniższy kod pokazuje, jak utworzyć ramkę DataFrame pandy do pracy:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

Poniższy kod pokazuje, jak uzyskać próbkę klientów, wybierając losowo cztery wizyty i włączając do próby każdego uczestnika tych wizyt:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

Z wyniku możemy zobaczyć, że:

  • Do próby włączono 20 klientów z grupy wycieczkowej nr 10.
  • Do próby włączono 20 klientów z grupy turystycznej nr 6.
  • Do próby włączono 20 klientów z grupy turystycznej nr 5.
  • Do próby włączono 20 klientów z grupy turystycznej nr 3.

Zatem próba ta składa się łącznie z 80 klientów z 4 różnych grup turystycznych.

Dodatkowe zasoby

Zrozumienie różnych typów metod pobierania próbek
Próbkowanie warstwowe u pand
Systematyczne pobieranie próbek pand

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *