Cara menghitung interval kepercayaan dengan python
Interval kepercayaan suatu mean adalah rentang nilai yang kemungkinan mengandung mean populasi dengan tingkat kepercayaan tertentu.
Ini dihitung sebagai berikut:
Interval kepercayaan = x +/- t*(s/√n)
Emas:
- x : mean sampel
- t : nilai t yang sesuai dengan tingkat kepercayaan
- s: deviasi standar sampel
- n: ukuran sampel
Tutorial ini menjelaskan cara menghitung interval kepercayaan dengan Python.
Interval kepercayaan menggunakan distribusi t
Jika kita bekerja dengan sampel kecil (n <30), kita dapat menggunakan fungsi t.interval() dari perpustakaan scipy.stats untuk menghitung interval kepercayaan untuk rata-rata populasi.
Contoh berikut menunjukkan cara menghitung interval kepercayaan untuk rata-rata tinggi populasi sebenarnya (dalam inci) suatu spesies tumbuhan tertentu, dengan menggunakan sampel 15 tumbuhan:
import numpy as np import scipy.stats as st #define sample data data = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29] #create 95% confidence interval for population mean weight st.t.interval(alpha=0.95, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) (16.758, 24.042)
Interval kepercayaan 95% untuk rata-rata ukuran populasi sebenarnya adalah (16.758, 24.042) .
Anda akan melihat bahwa semakin tinggi tingkat kepercayaan, semakin lebar interval kepercayaannya. Misalnya, berikut cara menghitung CI 99% untuk data yang sama persis:
#create 99% confidence interval for same sample st.t.interval(alpha= 0.99 , df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) (15.348, 25.455)
Interval kepercayaan 99% untuk rata-rata ukuran populasi sebenarnya adalah (15.348, 25.455) . Perhatikan bahwa interval ini lebih lebar dibandingkan interval kepercayaan 95% sebelumnya.
Interval kepercayaan menggunakan distribusi normal
Jika kita bekerja dengan sampel yang lebih besar (n≥30), kita dapat mengasumsikan bahwa distribusi pengambilan sampel dari rata-rata sampel terdistribusi normal (berkat teorema limit pusat ) dan sebagai gantinya kita dapat menggunakan fungsi norma. interval() dari perpustakaan .stats scipy.
Contoh berikut menunjukkan cara menghitung interval kepercayaan untuk rata-rata tinggi populasi sebenarnya (dalam inci) suatu spesies tumbuhan tertentu, dengan menggunakan sampel 50 tumbuhan:
import numpy as np import scipy.stats as st #define sample data np.random.seed(0) data = np.random.randint(10, 30, 50) #create 95% confidence interval for population mean weight st.norm.interval(alpha=0.95, loc=np.mean(data), scale=st.sem(data)) (17.40, 21.08)
Interval kepercayaan 95% untuk ukuran populasi rata-rata sebenarnya adalah (17.40, 21.08) .
Dan seperti halnya distribusi t, tingkat kepercayaan yang lebih tinggi menyebabkan interval kepercayaan yang lebih luas. Misalnya, berikut cara menghitung CI 99% untuk data yang sama persis:
#create 99% confidence interval for same sample st.norm.interval(alpha= 0.99 , loc=np.mean(data), scale=st.sem(data)) (16.82, 21.66)
Interval kepercayaan 95% untuk ukuran populasi rata-rata sebenarnya adalah (17.82, 21.66) .
Bagaimana menafsirkan interval kepercayaan
Asumsikan interval kepercayaan 95% untuk tinggi rata-rata sebenarnya suatu spesies tumbuhan adalah:
Interval kepercayaan 95% = (16.758, 24.042)
Cara menafsirkan interval kepercayaan ini adalah sebagai berikut:
Ada kemungkinan 95% bahwa interval kepercayaan [16.758, 24.042] berisi rata-rata tinggi tanaman populasi yang sebenarnya.
Cara lain untuk mengatakan hal yang sama adalah bahwa hanya ada 5% kemungkinan bahwa rata-rata populasi sebenarnya berada di luar interval kepercayaan 95%. Artinya, hanya ada kemungkinan 5% bahwa rata-rata tinggi tanaman sebenarnya kurang dari 16,758 inci atau lebih dari 24,042 inci.