Кластерна вибірка в pandas: із прикладами


Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.

Зазвичай використовуваним методом вибірки є кластерна вибірка , за якої сукупність поділяється на кластери, а всі члени певних кластерів вибираються для включення у вибірку.

У цьому підручнику пояснюється, як виконати кластерну вибірку на pandas DataFrame у Python.

Приклад: кластерна вибірка в Pandas

Припустимо, компанія, що пропонує екскурсії по місту, хоче опитати своїх клієнтів. З десяти турів, які вони пропонують на день, вони випадковим чином вибирають чотири тури та просять кожного клієнта оцінити свої враження за шкалою від 1 до 10.

Наступний код показує, як створити pandas DataFrame для роботи:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

А наступний код показує, як отримати вибірку клієнтів шляхом випадкового вибору чотирьох відвідувань і включення кожного учасника цих відвідувань у вибірку:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

З результату ми бачимо, що:

  • До вибірки увійшли 20 клієнтів з тургрупи №10.
  • До вибірки увійшли 20 клієнтів туристичної групи №6.
  • До вибірки увійшли 20 клієнтів туристичної групи №5.
  • До вибірки увійшли 20 клієнтів туристичної групи №3.

Таким чином, ця вибірка складається з 80 клієнтів з 4 різних туристичних груп.

Додаткові ресурси

Розуміння різних типів методів вибірки
Стратифікована вибірка у панд
Систематичний відбір проб панд

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *