Систематичний відбір проб у панд (з прикладами)
Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.
Зазвичай використовуваним методом вибірки є систематична вибірка , яка реалізується за допомогою простого двоетапного процесу:
1. Розмістіть кожного члена сукупності в певному порядку.
2. Виберіть випадкову початкову точку та виберіть одного члена з n, щоб стати частиною вибірки.
Цей підручник пояснює, як виконувати систематичну вибірку на pandas DataFrame у Python.
Приклад: систематичний відбір проб серед панд
Припустімо, що вчитель хоче отримати вибірку зі 100 учнів зі школи, у якій загалом навчається 500 учнів. Вона вирішує використовувати систематичну вибірку, у якій вона розміщує кожного студента в алфавітному порядку на основі їхнього прізвища, випадковим чином вибирає початкову точку та відбирає кожного п’ятого студента для вибірки.
Наступний код показує, як створити фальшивий фрейм даних для роботи в Python:
import pandas as pd import numpy as np import string import random #make this example reproducible n.p. random . seeds (0) #create simple function to generate random last names def randomNames(size=6, chars=string. ascii_uppercase ): return ''. join (random. choice (chars) for _ in range(size)) #createDataFrame df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)], 'GPA': np. random . normal (loc=85, scale=3, size=500)}) #view first six rows of DataFrame df. head () last_name GPA 0 PXGPIV 86.667888 1 JKRRQI 87.677422 2 TRIZTC 83.733056 3 YHUGIN 85.314142 4 ZVUNVK 85.684160
І наступний код показує, як отримати вибірку зі 100 студентів шляхом систематичної вибірки:
#obtain systematic sample by selecting every 5th row sys_sample_df = df. iloc [::5] #view first six rows of DataFrame sys_sample_df. head () last_name gpa 3 ORJFW 88.78065 8 RWPSB 81.96988 13 RACZU 79.21433 18 ZOHKA 80.47246 23 QJETK 87.09991 28 JTHWB 83.87300 #view dimensions of data frame sys_sample_df. shape (100, 2)
Зверніть увагу, що перший член, включений у вибірку, був у першому рядку вихідного кадру даних. Кожен наступний член вибірки розташовується через 5 рядків після попереднього.
І за допомогою shape() ми можемо побачити, що систематична вибірка, яку ми отримали, є кадром даних із 100 рядків і 2 стовпців.
Додаткові ресурси
Види методів відбору проб
Кластерна вибірка у панд
Стратифікована вибірка у панд