So führen sie bootstrapping in python durch (mit beispiel)


Bootstrapping ist eine Methode, mit der ein Konfidenzintervall für eine Statistik erstellt werden kann, wenn die Stichprobengröße klein und die zugrunde liegende Verteilung unbekannt ist.

Der grundlegende Prozess für das Bootstrapping ist wie folgt:

  • Nehmen Sie k Replikatproben mit Ersetzung aus einem bestimmten Datensatz.
  • Berechnen Sie für jede Stichprobe die interessierende Statistik.
  • Dies ergibt k verschiedene Schätzungen für eine bestimmte Statistik, die Sie dann zur Berechnung eines Konfidenzintervalls für die Statistik verwenden können.

Der einfachste Weg zum Bootstrap in Python ist die Verwendung der Bootstrap- Funktion aus der SciPy- Bibliothek.

Das folgende Beispiel zeigt, wie Sie diese Funktion in der Praxis nutzen können.

Beispiel: Bootstrapping in Python durchführen

Angenommen, wir erstellen in Python einen Datensatz mit 15 Werten:

 #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

Mit dem folgenden Code können wir ein 95-prozentiges Bootstrap-Konfidenzintervall für den Medianwert berechnen:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

Das 95 %-Bootstrap-Konfidenzintervall für den Median beträgt [10,0, 20,0] .

Folgendes hat die boostrap() -Funktion tatsächlich unter der Haube getan:

  • Die Bootstrap()- Funktion generierte 9.999 Samples mit Ersetzung. (Der Standardwert ist 9999, Sie können diese Zahl jedoch mit dem Argument n_resamples ändern.)
  • Für jede Bootstrap-Stichprobe wurde der Median berechnet.
  • Der Medianwert jeder Stichprobe wurde vom kleinsten zum größten geordnet und der Medianwert beim 2,5 %-Perzentil und beim 97,5 %-Perzentil wurde verwendet, um die Unter- und Obergrenze des 95 %-Konfidenzintervalls zu ermitteln. %.

Beachten Sie, dass Sie für praktisch jede Statistik ein Bootstrap-Konfidenzintervall berechnen können.

Beispielsweise können wir in der Bootstrap() -Funktion np.median durch np.std ersetzen, um stattdessen ein 95 %-Konfidenzintervall für die Standardabweichung zu berechnen:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

Das 95 %-Bootstrap-Konfidenzintervall für die Standardabweichung beträgt [3,32, 5,67] .

Hinweis : Für diese Beispiele wählen wir die Erstellung von 95 %-Konfidenzintervallen, aber Sie können den Wert des Arguments „trust_level“ ändern, um ein Konfidenzintervall mit einer anderen Größe zu erstellen.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie man in anderer Statistiksoftware einen Bootstrap durchführt:

So booten Sie in R
So führen Sie einen Bootstrap in Excel durch

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert