Jak wykonać ładowanie w pythonie (z przykładem)
Metoda ładowania początkowego to metoda, którą można zastosować do skonstruowania przedziału ufności dla statystyki , gdy wielkość próby jest mała, a rozkład leżący u jej podstaw jest nieznany.
Podstawowy proces ładowania początkowego jest następujący:
- Pobierz k powtórzonych próbek z zamianą z danego zbioru danych.
- Dla każdej próbki oblicz interesującą statystykę.
- Daje to k różnych szacunków dla danej statystyki, które można następnie wykorzystać do obliczenia przedziału ufności dla tej statystyki.
Najprostszym sposobem na bootstrap w Pythonie jest użycie funkcji bootstrap z biblioteki SciPy .
Poniższy przykład pokazuje, jak w praktyce wykorzystać tę funkcję.
Przykład: wykonanie ładowania początkowego w Pythonie
Załóżmy, że tworzymy zbiór danych w Pythonie zawierający 15 wartości:
#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]
Możemy użyć poniższego kodu, aby obliczyć 95% przedział ufności metody bootstrap dla wartości mediany:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=10.0, high=20.0)
Okazuje się, że 95% przedział ufności bootstrap dla mediany wynosi [10,0, 20,0] .
Oto, co faktycznie robiła funkcja boostrap() :
- Funkcja bootstrap() wygenerowała 9999 próbek z zastąpieniem. (Domyślna liczba to 9999, ale możesz użyć argumentu n_resamples , aby zmienić tę liczbę)
- Dla każdej próbki bootstrap obliczono medianę.
- Medianę wartości każdej próbki uporządkowano od najmniejszej do największej, a medianę wartości na percentylu 2,5% i percentylu 97,5% wykorzystano do skonstruowania dolnej i górnej granicy 95% przedziału ufności. %.
Należy pamiętać, że można obliczyć przedział ufności ładowania początkowego dla praktycznie każdej statystyki.
Na przykład możemy zastąpić np.median przez np.std w funkcji bootstrap() , aby zamiast tego obliczyć 95% przedział ufności dla odchylenia standardowego:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
Okazuje się, że 95% przedział ufności bootstrap dla odchylenia standardowego wynosi [3,32, 5,67] .
Uwaga : w tych przykładach zdecydowaliśmy się na utworzenie 95% przedziałów ufności, ale możesz zmienić wartość argumentu poziom_zaufania , aby skonstruować przedział ufności o innej wielkości.
Dodatkowe zasoby
Poniższe tutoriale wyjaśniają sposób ładowania początkowego w innym oprogramowaniu statystycznym: