Систематичний відбір проб у панд (з прикладами)


Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.

Зазвичай використовуваним методом вибірки є систематична вибірка , яка реалізується за допомогою простого двоетапного процесу:

1. Розмістіть кожного члена сукупності в певному порядку.

2. Виберіть випадкову початкову точку та виберіть одного члена з n, щоб стати частиною вибірки.

Цей підручник пояснює, як виконувати систематичну вибірку на pandas DataFrame у Python.

Приклад: систематичний відбір проб серед панд

Припустімо, що вчитель хоче отримати вибірку зі 100 учнів зі школи, у якій загалом навчається 500 учнів. Вона вирішує використовувати систематичну вибірку, у якій вона розміщує кожного студента в алфавітному порядку на основі їхнього прізвища, випадковим чином вибирає початкову точку та відбирає кожного п’ятого студента для вибірки.

Наступний код показує, як створити фальшивий фрейм даних для роботи в Python:

 import pandas as pd
import numpy as np
import string
import random

#make this example reproducible
n.p. random . seeds (0)

#create simple function to generate random last names
def randomNames(size=6, chars=string. ascii_uppercase ):
    return ''. join (random. choice (chars) for _ in range(size))

#createDataFrame
df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)],
                   'GPA': np. random . normal (loc=85, scale=3, size=500)})

#view first six rows of DataFrame
df. head ()

last_name GPA
0 PXGPIV 86.667888
1 JKRRQI 87.677422
2 TRIZTC 83.733056
3 YHUGIN 85.314142
4 ZVUNVK 85.684160

І наступний код показує, як отримати вибірку зі 100 студентів шляхом систематичної вибірки:

 #obtain systematic sample by selecting every 5th row
sys_sample_df = df. iloc [::5]

#view first six rows of DataFrame
sys_sample_df. head ()

   last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#view dimensions of data frame
sys_sample_df. shape

(100, 2)

Зверніть увагу, що перший член, включений у вибірку, був у першому рядку вихідного кадру даних. Кожен наступний член вибірки розташовується через 5 рядків після попереднього.

І за допомогою shape() ми можемо побачити, що систематична вибірка, яку ми отримали, є кадром даних із 100 рядків і 2 стовпців.

Додаткові ресурси

Види методів відбору проб
Кластерна вибірка у панд
Стратифікована вибірка у панд

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *