Pengambilan sampel sistematis pada panda (dengan contoh)
Peneliti sering kali mengambil sampel dari suatu populasi dan menggunakan data dari sampel tersebut untuk menarik kesimpulan tentang populasi secara keseluruhan.
Metode pengambilan sampel yang umum digunakan adalah pengambilan sampel sistematis , yang diterapkan dalam proses dua langkah sederhana:
1. Tempatkan setiap anggota populasi dalam urutan tertentu.
2. Pilih titik awal secara acak dan pilih satu dari n anggota untuk menjadi bagian sampel.
Tutorial ini menjelaskan cara melakukan pengambilan sampel sistematis pada pandas DataFrame dengan Python.
Contoh: pengambilan sampel sistematis di antara panda
Misalkan seorang guru ingin memperoleh sampel sebanyak 100 siswa dari sebuah sekolah yang mempunyai jumlah siswa sebanyak 500 orang. Dia memilih untuk menggunakan pengambilan sampel sistematis di mana dia menempatkan setiap siswa dalam urutan abjad berdasarkan nama belakang mereka, secara acak memilih titik awal, dan memilih setiap siswa kelima untuk dijadikan sampel.
Kode berikut menunjukkan cara membuat bingkai data palsu untuk digunakan dengan Python:
import pandas as pd import numpy as np import string import random #make this example reproducible n.p. random . seeds (0) #create simple function to generate random last names def randomNames(size=6, chars=string. ascii_uppercase ): return ''. join (random. choice (chars) for _ in range(size)) #createDataFrame df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)], 'GPA': np. random . normal (loc=85, scale=3, size=500)}) #view first six rows of DataFrame df. head () last_name GPA 0 PXGPIV 86.667888 1 JKRRQI 87.677422 2 TRIZTC 83.733056 3 YHUGIN 85.314142 4 ZVUNVK 85.684160
Dan kode berikut menunjukkan cara memperoleh sampel sebanyak 100 siswa melalui sistematik sampling:
#obtain systematic sample by selecting every 5th row sys_sample_df = df. iloc [::5] #view first six rows of DataFrame sys_sample_df. head () last_name gpa 3 ORJFW 88.78065 8 RWPSB 81.96988 13 RACZU 79.21433 18 ZOHKA 80.47246 23 QJETK 87.09991 28 JTHWB 83.87300 #view dimensions of data frame sys_sample_df. shape (100, 2)
Perhatikan bahwa anggota pertama yang disertakan dalam sampel berada di baris pertama bingkai data asli. Setiap anggota sampel berikutnya terletak 5 baris setelah anggota sebelumnya.
Dan dengan menggunakan shape() kita dapat melihat bahwa sampel sistematis yang kita peroleh adalah kerangka data 100 baris dan 2 kolom.
Sumber daya tambahan
Jenis Metode Pengambilan Sampel
Pengambilan sampel cluster di panda
Pengambilan sampel bertingkat pada panda