Comment effectuer un bootstrapping dans Excel (avec exemple)
Le bootstrapping est une méthode qui peut être utilisée pour construire un intervalle de confiance pour une statistique lorsque la taille de l’échantillon est petite et que la distribution sous-jacente est inconnue.
Le processus de base pour le bootstrap est le suivant :
- Prenez k échantillons répétés avec remplacement à partir d’un ensemble de données donné.
- Pour chaque échantillon, calculez la statistique qui vous intéresse.
- Cela donne k estimations différentes pour une statistique donnée, que vous pouvez ensuite utiliser pour calculer un intervalle de confiance pour la statistique.
L’exemple étape par étape suivant montre comment effectuer un bootstrap dans Excel.
Étape 1 : Saisissez les données d’origine
Tout d’abord, nous allons saisir les valeurs d’un ensemble de données :
Étape 2 : Générer des exemples d’amorçage
Ensuite, nous utiliserons la formule suivante pour générer des exemples d’amorçage :
=INDEX($A$2:$A$16, RANDBETWEEN(1, ROWS($A$2:$A$16)),1)
Nous pouvons taper cette formule dans la cellule D2 pour sélectionner au hasard une valeur dans l’ensemble de données d’origine.
Nous pouvons ensuite faire glisser cette formule vers la droite sur 10 cellules afin de générer notre premier échantillon bootstrap.
Nous pouvons ensuite faire glisser cette formule sur 300 lignes pour créer 300 échantillons bootstrapés :
Remarque : L’amorçage utilise l’échantillonnage avec remplacement , ce qui signifie qu’une valeur de l’ensemble de données d’origine peut apparaître plusieurs fois dans un échantillon donné.
Étape 3 : Calculer la statistique d’intérêt pour chaque échantillon
Ensuite, nous pouvons calculer la statistique d’intérêt pour chaque échantillon.
Par exemple, nous pourrions calculer la moyenne, la médiane, l’écart type, l’intervalle interquartile, etc. pour chaque échantillon.
Pour cet exemple particulier, nous calculerons la valeur médiane pour chaque échantillon :
Nous pouvons voir:
- Le premier échantillon bootstrap a une valeur médiane de 14 .
- Le deuxième échantillon bootstrap a une valeur médiane de 16 .
- Le troisième échantillon bootstrap a une valeur médiane de 13,5 .
Et ainsi de suite.
Étape 4 : Calculer l’intervalle de confiance bootstrap
Enfin, nous pouvons calculer un intervalle de confiance bootstrap de 95 % pour la médiane en trouvant la valeur située au percentile 2,5 % et au percentile 97,5 % dans la colonne N.
Pour ce faire, nous pouvons utiliser les formules suivantes :
=PERCENTILE(N2:N301, 0.025) =PERCENTILE(N2:N301, 0.975)
La capture d’écran suivante montre comment utiliser ces formules dans la pratique :
À partir du résultat, nous pouvons voir que l’intervalle de confiance bootstrap de 95 % pour la valeur médiane de l’ensemble de données d’origine est [10.475, 19.7625] .
Notez que dans cet exemple, nous avons choisi de générer 300 échantillons bootstrapés, chacun avec une taille d’échantillon de n=10, mais vous pouvez générer autant d’échantillons bootstrapés que vous le souhaitez.
Lors de l’utilisation d’un logiciel statistique, il est courant de générer des milliers d’échantillons bootstrapés qui peuvent ensuite être utilisés pour construire un intervalle de confiance.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans Excel :
Comment calculer les intervalles de confiance dans Excel
Comment calculer les intervalles de prédiction dans Excel
Comment calculer les intervalles de tolérance dans Excel