Pengambilan sampel cluster di pandas: dengan contoh
Peneliti sering kali mengambil sampel dari suatu populasi dan menggunakan data dari sampel tersebut untuk menarik kesimpulan tentang populasi secara keseluruhan.
Metode pengambilan sampel yang umum digunakan adalah cluster sampling , yaitu suatu populasi dibagi menjadi beberapa cluster dan seluruh anggota cluster tertentu dipilih untuk dimasukkan ke dalam sampel.
Tutorial ini menjelaskan cara melakukan pengambilan sampel cluster pada pandas DataFrame dengan Python.
Contoh: Pengambilan Sampel Cluster di Pandas
Katakanlah sebuah perusahaan yang menawarkan tur kota ingin mensurvei pelanggannya. Dari sepuluh tur yang mereka tawarkan per hari, mereka secara acak memilih empat tur dan meminta setiap pelanggan menilai pengalaman mereka dalam skala 1 hingga 10.
Kode berikut menunjukkan cara membuat pandas DataFrame untuk digunakan:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
Dan kode berikut menunjukkan cara mendapatkan sampel pelanggan dengan memilih empat kunjungan secara acak dan memasukkan setiap anggota kunjungan tersebut ke dalam sampel:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
Dari hasilnya kita dapat melihat bahwa:
- 20 pelanggan dari grup tur #10 dimasukkan dalam sampel.
- 20 pelanggan dari kelompok wisata #6 dimasukkan dalam sampel.
- 20 pelanggan dari kelompok wisata #5 dimasukkan dalam sampel.
- 20 pelanggan dari kelompok wisata #3 dimasukkan dalam sampel.
Jadi, sampel ini terdiri dari total 80 pelanggan yang berasal dari 4 kelompok wisatawan berbeda.
Sumber daya tambahan
Memahami berbagai jenis metode pengambilan sampel
Pengambilan sampel bertingkat pada panda
Pengambilan sampel panda secara sistematis