Как выполнить загрузку в python (с примером)
Начальная загрузка — это метод, который можно использовать для построения доверительного интервала для статистики , когда размер выборки невелик и основное распределение неизвестно.
Основной процесс начальной загрузки выглядит следующим образом:
- Возьмите k повторных выборок с заменой из заданного набора данных.
- Для каждого образца рассчитайте интересующую статистику.
- Это дает k различных оценок для данной статистики, которые затем можно использовать для расчета доверительного интервала для статистики.
Самый простой способ загрузки Python — использовать функцию начальной загрузки из библиотеки SciPy .
В следующем примере показано, как использовать эту функцию на практике.
Пример: выполнение начальной загрузки в Python
Предположим, мы создаем набор данных в Python, содержащий 15 значений:
#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]
Мы можем использовать следующий код для расчета 95% доверительного интервала начальной загрузки для медианного значения:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=10.0, high=20.0)
95%-ный доверительный интервал начальной загрузки для медианы оказывается [10,0, 20,0] .
Вот что на самом деле делает функция boostrap() :
- Функция bootstrap() сгенерировала 9999 выборок с заменой. (По умолчанию — 9999, но вы можете использовать аргумент n_resamples , чтобы изменить это число)
- Для каждой бутстреп-выборки рассчитывали медиану.
- Медианное значение каждой выборки было упорядочено от наименьшего к наибольшему, а медианное значение в процентиле 2,5% и процентиле 97,5% использовалось для построения нижнего и верхнего пределов 95% доверительного интервала. %.
Обратите внимание, что вы можете рассчитать доверительный интервал начальной загрузки практически для любой статистики.
Например, мы можем заменить np.median на np.std в функции bootstrap() , чтобы вместо этого рассчитать 95% доверительный интервал для стандартного отклонения:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
95%-й бутстреп-доверительный интервал для стандартного отклонения оказывается [3,32, 5,67] .
Примечание . В этих примерах мы решили создать доверительные интервалы 95 %, но вы можете изменить значение аргумента «уровень доверия» , чтобы построить доверительный интервал другого размера.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнить начальную загрузку в другом программном обеспечении для статистики:
Как выполнить начальную загрузку в R
Как выполнить начальную загрузку в Excel