Як виконати початкове завантаження в python (з прикладом)
Бутстрапінг – це метод, який можна використовувати для побудови довірчого інтервалу для статистичних даних , коли розмір вибірки невеликий і основний розподіл невідомий.
Основний процес початкового завантаження виглядає наступним чином:
- Візьміть k повторних зразків із заміною з заданого набору даних.
- Для кожного зразка обчисліть цікаву статистику.
- Це дає k різних оцінок для заданої статистики, які потім можна використовувати для обчислення довірчого інтервалу для статистики.
Найпростіший спосіб початкового завантаження в Python — це використовувати функцію початкового завантаження з бібліотеки SciPy .
У наступному прикладі показано, як використовувати цю функцію на практиці.
Приклад: виконання початкового завантаження в Python
Припустімо, ми створюємо набір даних у Python, що містить 15 значень:
#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]
Ми можемо використати такий код, щоб обчислити 95% початковий довірчий інтервал для середнього значення:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=10.0, high=20.0)
95% початковий довірчий інтервал для медіани дорівнює [10,0, 20,0] .
Ось що насправді робила функція boostrap() під капотом:
- Функція bootstrap() згенерувала 9999 зразків із заміною. (За замовчуванням 9999, але ви можете використовувати аргумент n_resamples , щоб змінити це число)
- Для кожного початкового зразка було розраховано медіану.
- Середнє значення кожного зразка було впорядковано від найменшого до найбільшого, а середнє значення на 2,5% процентилі та 97,5% процентилі використовувалося для побудови нижньої та верхньої меж 95% довірчого інтервалу. %.
Зауважте, що ви можете розрахувати початковий довірчий інтервал практично для будь-якої статистики.
Наприклад, ми можемо замінити np.median на np.std у функції bootstrap() , щоб замість цього обчислити 95% довірчий інтервал для стандартного відхилення:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
random_state= 1 , method=' percentile ')
#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
Виявляється, що 95% початковий довірчий інтервал для стандартного відхилення дорівнює [3,32, 5,67] .
Примітка . Для цих прикладів ми вирішили створити 95% довірчі інтервали, але ви можете змінити значення аргументу trust_level , щоб створити довірчий інтервал іншого розміру.
Додаткові ресурси
У наступних посібниках пояснюється, як завантажувати інше програмне забезпечення для статистики:
Як виконати завантаження в R
Як виконати завантаження в Excel