Как выполнить загрузку в python (с примером)


Начальная загрузка — это метод, который можно использовать для построения доверительного интервала для статистики , когда размер выборки невелик и основное распределение неизвестно.

Основной процесс начальной загрузки выглядит следующим образом:

  • Возьмите k повторных выборок с заменой из заданного набора данных.
  • Для каждого образца рассчитайте интересующую статистику.
  • Это дает k различных оценок для данной статистики, которые затем можно использовать для расчета доверительного интервала для статистики.

Самый простой способ загрузки Python — использовать функцию начальной загрузки из библиотеки SciPy .

В следующем примере показано, как использовать эту функцию на практике.

Пример: выполнение начальной загрузки в Python

Предположим, мы создаем набор данных в Python, содержащий 15 значений:

 #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

Мы можем использовать следующий код для расчета 95% доверительного интервала начальной загрузки для медианного значения:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

95%-ный доверительный интервал начальной загрузки для медианы оказывается [10,0, 20,0] .

Вот что на самом деле делает функция boostrap() :

  • Функция bootstrap() сгенерировала 9999 выборок с заменой. (По умолчанию — 9999, но вы можете использовать аргумент n_resamples , чтобы изменить это число)
  • Для каждой бутстреп-выборки рассчитывали медиану.
  • Медианное значение каждой выборки было упорядочено от наименьшего к наибольшему, а медианное значение в процентиле 2,5% и процентиле 97,5% использовалось для построения нижнего и верхнего пределов 95% доверительного интервала. %.

Обратите внимание, что вы можете рассчитать доверительный интервал начальной загрузки практически для любой статистики.

Например, мы можем заменить np.median на np.std в функции bootstrap() , чтобы вместо этого рассчитать 95% доверительный интервал для стандартного отклонения:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

95%-й бутстреп-доверительный интервал для стандартного отклонения оказывается [3,32, 5,67] .

Примечание . В этих примерах мы решили создать доверительные интервалы 95 %, но вы можете изменить значение аргумента «уровень доверия» , чтобы построить доверительный интервал другого размера.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнить начальную загрузку в другом программном обеспечении для статистики:

Как выполнить начальную загрузку в R
Как выполнить начальную загрузку в Excel

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *