Кластерная выборка в pandas: с примерами
Исследователи часто берут образцы из популяции и используют данные выборки, чтобы сделать выводы о популяции в целом.
Обычно используемым методом выборки является кластерная выборка , при которой совокупность делится на кластеры и все члены определенных кластеров выбираются для включения в выборку.
В этом руководстве объясняется, как выполнить кластерную выборку в DataFrame pandas в Python.
Пример: кластерная выборка в Pandas
Допустим, компания, предлагающая экскурсии по городу, хочет опросить своих клиентов. Из десяти туров, которые они предлагают в день, они случайным образом выбирают четыре тура и просят каждого клиента оценить свои впечатления по шкале от 1 до 10.
Следующий код показывает, как создать DataFrame pandas для работы:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
Следующий код показывает, как получить выборку клиентов, случайным образом выбрав четыре посещения и включив в выборку каждого участника этих посещений:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
По результату мы видим, что:
- В выборку вошли 20 клиентов тургруппы №10.
- В выборку вошли 20 клиентов туристической группы №6.
- В выборку вошли 20 клиентов туристической группы №5.
- В выборку вошли 20 клиентов туристической группы №3.
Таким образом, данная выборка состоит из 80 клиентов из 4 различных туристических групп.
Дополнительные ресурсы
Понимание различных типов методов отбора проб
Стратифицированная выборка в пандах
Систематический отбор панд