Кластерная выборка в pandas: с примерами


Исследователи часто берут образцы из популяции и используют данные выборки, чтобы сделать выводы о популяции в целом.

Обычно используемым методом выборки является кластерная выборка , при которой совокупность делится на кластеры и все члены определенных кластеров выбираются для включения в выборку.

В этом руководстве объясняется, как выполнить кластерную выборку в DataFrame pandas в Python.

Пример: кластерная выборка в Pandas

Допустим, компания, предлагающая экскурсии по городу, хочет опросить своих клиентов. Из десяти туров, которые они предлагают в день, они случайным образом выбирают четыре тура и просят каждого клиента оценить свои впечатления по шкале от 1 до 10.

Следующий код показывает, как создать DataFrame pandas для работы:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

Следующий код показывает, как получить выборку клиентов, случайным образом выбрав четыре посещения и включив в выборку каждого участника этих посещений:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

По результату мы видим, что:

  • В выборку вошли 20 клиентов тургруппы №10.
  • В выборку вошли 20 клиентов туристической группы №6.
  • В выборку вошли 20 клиентов туристической группы №5.
  • В выборку вошли 20 клиентов туристической группы №3.

Таким образом, данная выборка состоит из 80 клиентов из 4 различных туристических групп.

Дополнительные ресурсы

Понимание различных типов методов отбора проб
Стратифицированная выборка в пандах
Систематический отбор панд

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *