การสุ่มตัวอย่างอย่างเป็นระบบในแพนด้า (พร้อมตัวอย่าง)


นักวิจัยมักจะเก็บ ตัวอย่าง จากประชากรและใช้ข้อมูลจากกลุ่มตัวอย่างเพื่อสรุปผลเกี่ยวกับประชากรโดยรวม

วิธีการสุ่มตัวอย่างที่ใช้กันทั่วไปคือ การสุ่มตัวอย่างอย่างเป็นระบบ ซึ่งดำเนินการในกระบวนการสองขั้นตอนง่ายๆ:

1. เรียงลำดับสมาชิกแต่ละคนในประชากรตามลำดับที่กำหนด

2. เลือกจุดเริ่มต้นแบบสุ่มและเลือกสมาชิกหนึ่งตัว จาก n เพื่อเป็นส่วนหนึ่งของกลุ่มตัวอย่าง

บทช่วยสอนนี้จะอธิบายวิธีการสุ่มตัวอย่างอย่างเป็นระบบบน Pandas DataFrame ใน Python

ตัวอย่าง: การสุ่มตัวอย่างอย่างเป็นระบบในหมู่แพนด้า

สมมติว่าครูต้องการตัวอย่างนักเรียน 100 คนจากโรงเรียนที่มีนักเรียนทั้งหมด 500 คน เธอเลือกใช้การสุ่มตัวอย่างอย่างเป็นระบบ โดยจัดนักเรียนแต่ละคนตามลำดับตัวอักษรตามนามสกุล สุ่มเลือกจุดเริ่มต้น และเลือกนักเรียนทุกๆ ห้าคนที่อยู่ในกลุ่มตัวอย่าง

รหัสต่อไปนี้แสดงวิธีสร้างเฟรมข้อมูลปลอมเพื่อใช้งานใน Python:

 import pandas as pd
import numpy as np
import string
import random

#make this example reproducible
n.p. random . seeds (0)

#create simple function to generate random last names
def randomNames(size=6, chars=string. ascii_uppercase ):
    return ''. join (random. choice (chars) for _ in range(size))

#createDataFrame
df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)],
                   'GPA': np. random . normal (loc=85, scale=3, size=500)})

#view first six rows of DataFrame
df. head ()

last_name GPA
0 PXGPIV 86.667888
1 JKRRQI 87.677422
2 TRIZTC 83.733056
3 YHUGIN 85.314142
4 ZVUNVK 85.684160

และรหัสต่อไปนี้แสดงวิธีรับตัวอย่างนักเรียน 100 คนผ่านการสุ่มตัวอย่างอย่างเป็นระบบ:

 #obtain systematic sample by selecting every 5th row
sys_sample_df = df. iloc [::5]

#view first six rows of DataFrame
sys_sample_df. head ()

   last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#view dimensions of data frame
sys_sample_df. shape

(100, 2)

โปรดทราบว่าสมาชิกตัวแรกที่รวมอยู่ในตัวอย่างอยู่ในแถวแรกของกรอบข้อมูลดั้งเดิม สมาชิกถัดไปของกลุ่มตัวอย่างจะอยู่ห่างจากสมาชิกก่อนหน้า 5 บรรทัด

และการใช้ รูปร่าง () เราจะเห็นได้ว่าตัวอย่างที่เป็นระบบที่เราได้รับคือกรอบข้อมูล 100 แถวและ 2 คอลัมน์

แหล่งข้อมูลเพิ่มเติม

ประเภทของวิธีการสุ่มตัวอย่าง
การสุ่มตัวอย่างคลัสเตอร์ในแพนด้า
การสุ่มตัวอย่างแบบแบ่งชั้นในแพนด้า

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *