การสุ่มตัวอย่างคลัสเตอร์ที่ pandas: พร้อมตัวอย่าง


นักวิจัยมักจะเก็บ ตัวอย่าง จากประชากรและใช้ข้อมูลจากกลุ่มตัวอย่างเพื่อสรุปผลเกี่ยวกับประชากรโดยรวม

วิธีการสุ่มตัวอย่างที่ใช้กันทั่วไปคือ การสุ่มตัวอย่างแบบคลัสเตอร์ โดยแบ่งประชากรออกเป็นกลุ่มๆ และเลือกสมาชิกทั้งหมดของกลุ่ม บาง กลุ่มเพื่อรวมไว้ในตัวอย่าง

บทช่วยสอนนี้จะอธิบายวิธีการสุ่มตัวอย่างคลัสเตอร์บน Pandas DataFrame ใน Python

ตัวอย่าง: การสุ่มตัวอย่างคลัสเตอร์ในนุ่น

สมมติว่าบริษัทที่ให้บริการทัวร์ชมเมืองต้องการสำรวจลูกค้า จากทัวร์สิบรายการที่พวกเขานำเสนอต่อวัน พวกเขาสุ่มเลือกทัวร์สี่รายการและขอให้ลูกค้าแต่ละรายให้คะแนนประสบการณ์ของตนในระดับ 1 ถึง 10

รหัสต่อไปนี้แสดงวิธีการสร้าง DataFrame ของแพนด้าเพื่อใช้งาน:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

และรหัสต่อไปนี้แสดงวิธีการรับตัวอย่างของลูกค้าโดยการสุ่มเลือกการเข้าชมสี่ครั้ง และรวมสมาชิกแต่ละคนของการเข้าชมเหล่านั้นไว้ในตัวอย่าง:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

จากผลลัพธ์เราจะเห็นได้ว่า:

  • ลูกค้า 20 รายจากกรุ๊ปทัวร์ #10 รวมอยู่ในกลุ่มตัวอย่าง
  • ลูกค้า 20 รายจากกลุ่มนักท่องเที่ยวหมายเลข 6 รวมอยู่ในกลุ่มตัวอย่าง
  • ลูกค้า 20 รายจากกลุ่มนักท่องเที่ยวหมายเลข 5 รวมอยู่ในกลุ่มตัวอย่าง
  • ลูกค้ากลุ่มนักท่องเที่ยว #3 จำนวน 20 ราย รวมอยู่ในกลุ่มตัวอย่าง

กลุ่มตัวอย่างนี้ประกอบด้วยลูกค้าทั้งหมด 80 ราย จาก 4 กลุ่มนักท่องเที่ยวที่แตกต่างกัน

แหล่งข้อมูลเพิ่มเติม

ทำความเข้าใจวิธีการสุ่มตัวอย่างประเภทต่างๆ
การสุ่มตัวอย่างแบบแบ่งชั้นในแพนด้า
การสุ่มตัวอย่างแพนด้าอย่างเป็นระบบ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *