Como realizar bootstrapping em python (com exemplo)


Bootstrapping é um método que pode ser usado para construir um intervalo de confiança para uma estatística quando o tamanho da amostra é pequeno e a distribuição subjacente é desconhecida.

O processo básico para inicialização é o seguinte:

  • Pegue k amostras replicadas com substituição de um determinado conjunto de dados.
  • Para cada amostra, calcule a estatística de interesse.
  • Isso fornece k estimativas diferentes para uma determinada estatística, que você pode usar para calcular um intervalo de confiança para a estatística.

A maneira mais fácil de inicializar em Python é usar a função bootstrap da biblioteca SciPy .

O exemplo a seguir mostra como usar esta função na prática.

Exemplo: realizando bootstrapping em Python

Suponha que criemos um conjunto de dados em Python contendo 15 valores:

 #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

Podemos usar o código a seguir para calcular um intervalo de confiança de bootstrap de 95% para o valor mediano:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

O intervalo de confiança de bootstrap de 95% para a mediana é [10.0, 20.0] .

Aqui está o que a função boostrap() realmente fez nos bastidores:

  • A função bootstrap() gerou 9.999 amostras com reposição. (O padrão é 9999, mas você pode usar o argumento n_resamples para alterar esse número)
  • Para cada amostra bootstrap, a mediana foi calculada.
  • O valor mediano de cada amostra foi ordenado do menor para o maior e o valor mediano no percentil 2,5% e no percentil 97,5% foi utilizado para construir os limites inferior e superior do intervalo de confiança de 95%. %.

Observe que você pode calcular um intervalo de confiança de bootstrap para praticamente qualquer estatística.

Por exemplo, podemos substituir np.median por np.std na função bootstrap() para calcular um intervalo de confiança de 95% para o desvio padrão:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

O intervalo de confiança de bootstrap de 95% para o desvio padrão é [3.32, 5.67] .

Nota : Para estes exemplos, optamos por criar intervalos de confiança de 95%, mas você pode alterar o valor do argumento trust_level para construir um intervalo de confiança de tamanho diferente.

Recursos adicionais

Os tutoriais a seguir explicam como inicializar em outro software de estatística:

Como inicializar em R
Como inicializar no Excel

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *