การสุ่มตัวอย่างคลัสเตอร์ที่ pandas: พร้อมตัวอย่าง
นักวิจัยมักจะเก็บ ตัวอย่าง จากประชากรและใช้ข้อมูลจากกลุ่มตัวอย่างเพื่อสรุปผลเกี่ยวกับประชากรโดยรวม
วิธีการสุ่มตัวอย่างที่ใช้กันทั่วไปคือ การสุ่มตัวอย่างแบบคลัสเตอร์ โดยแบ่งประชากรออกเป็นกลุ่มๆ และเลือกสมาชิกทั้งหมดของกลุ่ม บาง กลุ่มเพื่อรวมไว้ในตัวอย่าง
บทช่วยสอนนี้จะอธิบายวิธีการสุ่มตัวอย่างคลัสเตอร์บน Pandas DataFrame ใน Python
ตัวอย่าง: การสุ่มตัวอย่างคลัสเตอร์ในนุ่น
สมมติว่าบริษัทที่ให้บริการทัวร์ชมเมืองต้องการสำรวจลูกค้า จากทัวร์สิบรายการที่พวกเขานำเสนอต่อวัน พวกเขาสุ่มเลือกทัวร์สี่รายการและขอให้ลูกค้าแต่ละรายให้คะแนนประสบการณ์ของตนในระดับ 1 ถึง 10
รหัสต่อไปนี้แสดงวิธีการสร้าง DataFrame ของแพนด้าเพื่อใช้งาน:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
และรหัสต่อไปนี้แสดงวิธีการรับตัวอย่างของลูกค้าโดยการสุ่มเลือกการเข้าชมสี่ครั้ง และรวมสมาชิกแต่ละคนของการเข้าชมเหล่านั้นไว้ในตัวอย่าง:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
จากผลลัพธ์เราจะเห็นได้ว่า:
- ลูกค้า 20 รายจากกรุ๊ปทัวร์ #10 รวมอยู่ในกลุ่มตัวอย่าง
- ลูกค้า 20 รายจากกลุ่มนักท่องเที่ยวหมายเลข 6 รวมอยู่ในกลุ่มตัวอย่าง
- ลูกค้า 20 รายจากกลุ่มนักท่องเที่ยวหมายเลข 5 รวมอยู่ในกลุ่มตัวอย่าง
- ลูกค้ากลุ่มนักท่องเที่ยว #3 จำนวน 20 ราย รวมอยู่ในกลุ่มตัวอย่าง
กลุ่มตัวอย่างนี้ประกอบด้วยลูกค้าทั้งหมด 80 ราย จาก 4 กลุ่มนักท่องเที่ยวที่แตกต่างกัน
แหล่งข้อมูลเพิ่มเติม
ทำความเข้าใจวิธีการสุ่มตัวอย่างประเภทต่างๆ
การสุ่มตัวอย่างแบบแบ่งชั้นในแพนด้า
การสุ่มตัวอย่างแพนด้าอย่างเป็นระบบ