Pengambilan sampel cluster di pandas: dengan contoh


Peneliti sering kali mengambil sampel dari suatu populasi dan menggunakan data dari sampel tersebut untuk menarik kesimpulan tentang populasi secara keseluruhan.

Metode pengambilan sampel yang umum digunakan adalah cluster sampling , yaitu suatu populasi dibagi menjadi beberapa cluster dan seluruh anggota cluster tertentu dipilih untuk dimasukkan ke dalam sampel.

Tutorial ini menjelaskan cara melakukan pengambilan sampel cluster pada pandas DataFrame dengan Python.

Contoh: Pengambilan Sampel Cluster di Pandas

Katakanlah sebuah perusahaan yang menawarkan tur kota ingin mensurvei pelanggannya. Dari sepuluh tur yang mereka tawarkan per hari, mereka secara acak memilih empat tur dan meminta setiap pelanggan menilai pengalaman mereka dalam skala 1 hingga 10.

Kode berikut menunjukkan cara membuat pandas DataFrame untuk digunakan:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (0)

#createDataFrame
df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20),
                   'experience': np. random . normal (loc=7, scale=1, size=200)})

#view first six rows of DataFrame
df. head ()

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

Dan kode berikut menunjukkan cara mendapatkan sampel pelanggan dengan memilih empat kunjungan secara acak dan memasukkan setiap anggota kunjungan tersebut ke dalam sampel:

 #randomly choose 4 tour groups out of the 10
clusters = np. random . choice (np. arange (1,11), size=4, replace= False )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample = df[df[' tour ']. isin (clusters)]

#view first six rows of sample
cluster_sample. head ()

tour experience
40 3 5.951447
41 3 5.579982
42 3 5.293730
43 3 8.950775
44 3 6.490348 

#find how many observations came from each tour group
cluster_sample[' tour ']. value_counts ()

10 20
6 20
5 20
3 20
Name: tour, dtype: int64

Dari hasilnya kita dapat melihat bahwa:

  • 20 pelanggan dari grup tur #10 dimasukkan dalam sampel.
  • 20 pelanggan dari kelompok wisata #6 dimasukkan dalam sampel.
  • 20 pelanggan dari kelompok wisata #5 dimasukkan dalam sampel.
  • 20 pelanggan dari kelompok wisata #3 dimasukkan dalam sampel.

Jadi, sampel ini terdiri dari total 80 pelanggan yang berasal dari 4 kelompok wisatawan berbeda.

Sumber daya tambahan

Memahami berbagai jenis metode pengambilan sampel
Pengambilan sampel bertingkat pada panda
Pengambilan sampel panda secara sistematis

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *