Python'da önyükleme nasıl yapılır (örnekle)
Önyükleme, örneklem büyüklüğünün küçük olduğu ve temel dağılımın bilinmediği durumlarda bir istatistik için güven aralığı oluşturmak için kullanılabilecek bir yöntemdir.
Önyükleme için temel süreç aşağıdaki gibidir:
- Belirli bir veri kümesinden değiştirilerek k adet kopya örnek alın.
- Her örnek için ilgilenilen istatistiği hesaplayın.
- Bu, belirli bir istatistik için k farklı tahmin verir ve bunu daha sonra istatistik için bir güven aralığı hesaplamak için kullanabilirsiniz.
Python’da önyükleme yapmanın en kolay yolu SciPy kütüphanesindeki önyükleme işlevini kullanmaktır.
Aşağıdaki örnekte bu fonksiyonun pratikte nasıl kullanılacağı gösterilmektedir.
Örnek: Python’da önyükleme gerçekleştirme
Python’da 15 değer içeren bir veri kümesi oluşturduğumuzu varsayalım:
#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]
Medyan değere yönelik %95 önyükleme güven aralığını hesaplamak için aşağıdaki kodu kullanabiliriz:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=10.0, high=20.0)
Medyan için %95 önyükleme güven aralığı [10.0, 20.0] olarak ortaya çıkıyor.
Boostrap() fonksiyonunun gerçekte yaptığı şey şu:
- Bootstrap() işlevi, değiştirmeyle 9.999 örnek oluşturdu. (Varsayılan 9999’dur ancak bu sayıyı değiştirmek için n_resamples bağımsız değişkenini kullanabilirsiniz)
- Her önyükleme örneği için medyan hesaplandı.
- Her numunenin medyan değeri en küçükten en büyüğe doğru sıralandı ve %2,5 yüzdelik dilimdeki ve %97,5 yüzdelik dilimdeki medyan değeri, %95 güven aralığının alt ve üst sınırlarını oluşturmak için kullanıldı. %.
Hemen hemen her istatistik için bir önyükleme güven aralığı hesaplayabileceğinizi unutmayın.
Örneğin, standart sapma için %95’lik bir güven aralığı hesaplamak amacıyla bootstrap() işlevinde np.median’ı np.std ile değiştirebiliriz:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
Standart sapma için %95 önyükleme güven aralığı [3,32, 5,67] olarak ortaya çıkıyor.
Not : Bu örnekler için %95 güven aralıkları oluşturmayı seçiyoruz ancak farklı boyutta bir güven aralığı oluşturmak için güven_düzeyi bağımsız değişkeninin değerini değiştirebilirsiniz.
Ek kaynaklar
Aşağıdaki eğitimlerde diğer istatistik yazılımlarında nasıl önyükleme yapılacağı açıklanmaktadır:
R’de önyükleme nasıl yapılır
Excel’de önyükleme nasıl yapılır