Cara melakukan bootstrap dengan python (dengan contoh)
Bootstrapping adalah metode yang dapat digunakan untuk membangun interval kepercayaan suatu statistik ketika ukuran sampelnya kecil dan distribusi dasarnya tidak diketahui.
Proses dasar untuk bootstrap adalah sebagai berikut:
- Ambil k sampel replikasi dengan penggantian dari kumpulan data tertentu.
- Untuk setiap sampel, hitung statistik minat.
- Hal ini memberikan k perkiraan berbeda untuk statistik tertentu, yang kemudian dapat Anda gunakan untuk menghitung interval kepercayaan untuk statistik tersebut.
Cara termudah untuk melakukan bootstrap dengan Python adalah dengan menggunakan fungsi bootstrap dari perpustakaan SciPy .
Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya.
Contoh: melakukan bootstrap dengan Python
Misalkan kita membuat dataset dengan Python yang berisi 15 nilai:
#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]
Kita dapat menggunakan kode berikut untuk menghitung interval kepercayaan bootstrap 95% untuk nilai median:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=10.0, high=20.0)
Interval kepercayaan bootstrap 95% untuk median ternyata adalah [10.0, 20.0] .
Inilah yang sebenarnya dilakukan oleh fungsi boostrap() :
- Fungsi bootstrap() menghasilkan 9.999 sampel dengan penggantian. (Defaultnya adalah 9999 tetapi Anda dapat menggunakan argumen n_resamples untuk mengubah nomor ini)
- Untuk setiap sampel bootstrap, median dihitung.
- Nilai median setiap sampel diurutkan dari terkecil hingga terbesar dan nilai median pada persentil 2,5% dan persentil 97,5% digunakan untuk menentukan batas bawah dan atas selang kepercayaan 95%. %.
Perhatikan bahwa Anda dapat menghitung interval kepercayaan bootstrap untuk hampir semua statistik.
Misalnya, kita dapat mengganti np.median dengan np.std di fungsi bootstrap() untuk menghitung interval kepercayaan 95% untuk deviasi standar:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
Interval kepercayaan bootstrap 95% untuk deviasi standar ternyata adalah [3.32, 5.67] .
Catatan : Untuk contoh ini, kami memilih untuk membuat interval kepercayaan 95%, namun Anda dapat mengubah nilai argumen tingkat kepercayaan untuk membuat interval kepercayaan dengan ukuran berbeda.
Sumber daya tambahan
Tutorial berikut menjelaskan cara bootstrap di software statistik lainnya: