Pengambilan sampel sistematis pada panda (dengan contoh)


Peneliti sering kali mengambil sampel dari suatu populasi dan menggunakan data dari sampel tersebut untuk menarik kesimpulan tentang populasi secara keseluruhan.

Metode pengambilan sampel yang umum digunakan adalah pengambilan sampel sistematis , yang diterapkan dalam proses dua langkah sederhana:

1. Tempatkan setiap anggota populasi dalam urutan tertentu.

2. Pilih titik awal secara acak dan pilih satu dari n anggota untuk menjadi bagian sampel.

Tutorial ini menjelaskan cara melakukan pengambilan sampel sistematis pada pandas DataFrame dengan Python.

Contoh: pengambilan sampel sistematis di antara panda

Misalkan seorang guru ingin memperoleh sampel sebanyak 100 siswa dari sebuah sekolah yang mempunyai jumlah siswa sebanyak 500 orang. Dia memilih untuk menggunakan pengambilan sampel sistematis di mana dia menempatkan setiap siswa dalam urutan abjad berdasarkan nama belakang mereka, secara acak memilih titik awal, dan memilih setiap siswa kelima untuk dijadikan sampel.

Kode berikut menunjukkan cara membuat bingkai data palsu untuk digunakan dengan Python:

 import pandas as pd
import numpy as np
import string
import random

#make this example reproducible
n.p. random . seeds (0)

#create simple function to generate random last names
def randomNames(size=6, chars=string. ascii_uppercase ):
    return ''. join (random. choice (chars) for _ in range(size))

#createDataFrame
df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)],
                   'GPA': np. random . normal (loc=85, scale=3, size=500)})

#view first six rows of DataFrame
df. head ()

last_name GPA
0 PXGPIV 86.667888
1 JKRRQI 87.677422
2 TRIZTC 83.733056
3 YHUGIN 85.314142
4 ZVUNVK 85.684160

Dan kode berikut menunjukkan cara memperoleh sampel sebanyak 100 siswa melalui sistematik sampling:

 #obtain systematic sample by selecting every 5th row
sys_sample_df = df. iloc [::5]

#view first six rows of DataFrame
sys_sample_df. head ()

   last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#view dimensions of data frame
sys_sample_df. shape

(100, 2)

Perhatikan bahwa anggota pertama yang disertakan dalam sampel berada di baris pertama bingkai data asli. Setiap anggota sampel berikutnya terletak 5 baris setelah anggota sebelumnya.

Dan dengan menggunakan shape() kita dapat melihat bahwa sampel sistematis yang kita peroleh adalah kerangka data 100 baris dan 2 kolom.

Sumber daya tambahan

Jenis Metode Pengambilan Sampel
Pengambilan sampel cluster di panda
Pengambilan sampel bertingkat pada panda

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *