Як виконати початкове завантаження в python (з прикладом)


Бутстрапінг – це метод, який можна використовувати для побудови довірчого інтервалу для статистичних даних , коли розмір вибірки невеликий і основний розподіл невідомий.

Основний процес початкового завантаження виглядає наступним чином:

  • Візьміть k повторних зразків із заміною з заданого набору даних.
  • Для кожного зразка обчисліть цікаву статистику.
  • Це дає k різних оцінок для заданої статистики, які потім можна використовувати для обчислення довірчого інтервалу для статистики.

Найпростіший спосіб початкового завантаження в Python — це використовувати функцію початкового завантаження з бібліотеки SciPy .

У наступному прикладі показано, як використовувати цю функцію на практиці.

Приклад: виконання початкового завантаження в Python

Припустімо, ми створюємо набір даних у Python, що містить 15 значень:

 #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

Ми можемо використати такий код, щоб обчислити 95% початковий довірчий інтервал для середнього значення:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

95% початковий довірчий інтервал для медіани дорівнює [10,0, 20,0] .

Ось що насправді робила функція boostrap() під капотом:

  • Функція bootstrap() згенерувала 9999 зразків із заміною. (За замовчуванням 9999, але ви можете використовувати аргумент n_resamples , щоб змінити це число)
  • Для кожного початкового зразка було розраховано медіану.
  • Середнє значення кожного зразка було впорядковано від найменшого до найбільшого, а середнє значення на 2,5% процентилі та 97,5% процентилі використовувалося для побудови нижньої та верхньої меж 95% довірчого інтервалу. %.

Зауважте, що ви можете розрахувати початковий довірчий інтервал практично для будь-якої статистики.

Наприклад, ми можемо замінити np.median на np.std у функції bootstrap() , щоб замість цього обчислити 95% довірчий інтервал для стандартного відхилення:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

Виявляється, що 95% початковий довірчий інтервал для стандартного відхилення дорівнює [3,32, 5,67] .

Примітка . Для цих прикладів ми вирішили створити 95% довірчі інтервали, але ви можете змінити значення аргументу trust_level , щоб створити довірчий інтервал іншого розміру.

Додаткові ресурси

У наступних посібниках пояснюється, як завантажувати інше програмне забезпечення для статистики:

Як виконати завантаження в R
Як виконати завантаження в Excel

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *