Jak wykonać ładowanie w pythonie (z przykładem)


Metoda ładowania początkowego to metoda, którą można zastosować do skonstruowania przedziału ufności dla statystyki , gdy wielkość próby jest mała, a rozkład leżący u jej podstaw jest nieznany.

Podstawowy proces ładowania początkowego jest następujący:

  • Pobierz k powtórzonych próbek z zamianą z danego zbioru danych.
  • Dla każdej próbki oblicz interesującą statystykę.
  • Daje to k różnych szacunków dla danej statystyki, które można następnie wykorzystać do obliczenia przedziału ufności dla tej statystyki.

Najprostszym sposobem na bootstrap w Pythonie jest użycie funkcji bootstrap z biblioteki SciPy .

Poniższy przykład pokazuje, jak w praktyce wykorzystać tę funkcję.

Przykład: wykonanie ładowania początkowego w Pythonie

Załóżmy, że tworzymy zbiór danych w Pythonie zawierający 15 wartości:

 #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

Możemy użyć poniższego kodu, aby obliczyć 95% przedział ufności metody bootstrap dla wartości mediany:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

Okazuje się, że 95% przedział ufności bootstrap dla mediany wynosi [10,0, 20,0] .

Oto, co faktycznie robiła funkcja boostrap() :

  • Funkcja bootstrap() wygenerowała 9999 próbek z zastąpieniem. (Domyślna liczba to 9999, ale możesz użyć argumentu n_resamples , aby zmienić tę liczbę)
  • Dla każdej próbki bootstrap obliczono medianę.
  • Medianę wartości każdej próbki uporządkowano od najmniejszej do największej, a medianę wartości na percentylu 2,5% i percentylu 97,5% wykorzystano do skonstruowania dolnej i górnej granicy 95% przedziału ufności. %.

Należy pamiętać, że można obliczyć przedział ufności ładowania początkowego dla praktycznie każdej statystyki.

Na przykład możemy zastąpić np.median przez np.std w funkcji bootstrap() , aby zamiast tego obliczyć 95% przedział ufności dla odchylenia standardowego:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

Okazuje się, że 95% przedział ufności bootstrap dla odchylenia standardowego wynosi [3,32, 5,67] .

Uwaga : w tych przykładach zdecydowaliśmy się na utworzenie 95% przedziałów ufności, ale możesz zmienić wartość argumentu poziom_zaufania , aby skonstruować przedział ufności o innej wielkości.

Dodatkowe zasoby

Poniższe tutoriale wyjaśniają sposób ładowania początkowego w innym oprogramowaniu statystycznym:

Jak uruchomić bootstrap w R
Jak wykonać bootstrap w Excelu

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *