La condition des 10 % dans les statistiques : définition & Exemple
Un essai de Bernoulli est une expérience avec seulement deux résultats possibles – « succès » ou « échec » – et la probabilité de succès est la même à chaque fois que l’expérience est menée.
Un exemple d’essai de Bernoulli est un tirage au sort. La pièce ne peut atterrir que sur deux faces (on pourrait appeler face un « succès » et face un « échec ») et la probabilité de succès à chaque lancer est de 0,5, en supposant que la pièce soit juste.
Souvent, en statistique, lorsque nous voulons calculer des probabilités impliquant plus que quelques essais de Bernoulli, nous utilisons ladistribution normale comme approximation. Cependant, pour ce faire, nous devons supposer que les essais sont indépendants.
Dans les cas où les essais ne sont pas réellement indépendants, nous pouvons toujours supposer qu’ils le sont si la taille de l’échantillon avec lequel nous travaillons ne dépasse pas 10 % de la taille de la population. C’est ce qu’on appelle la condition des 10 % .
La condition des 10 % : tant que la taille de l’échantillon est inférieure ou égale à 10 % de la taille de la population, nous pouvons toujours supposer que les essais de Bernoulli sont indépendants.
Intuition derrière la condition des 10 %
Pour développer une intuition derrière la condition des 10 %, considérons l’exemple suivant.
Supposons que la véritable proportion d’élèves d’une certaine classe qui préfèrent le football au basket-ball soit de 50 %. Soit la variable aléatoire X le nombre d’élèves sélectionnés au hasard dans 4 essais qui préfèrent le football au basket-ball. Disons que nous souhaitons comprendre la probabilité que les 4 élèves sélectionnés au hasard préfèrent le football au basket-ball.
Si la taille de notre classe est de 20 élèves et que nos essais étaient indépendants (par exemple, nous pourrions prendre des échantillons répétés des 20 élèves), alors la probabilité que chaque élève préfère le football au basket-ball pourrait être calculée comme suit :
P(Les 4 élèves préfèrent le football) = 10/20 * 10/20 * 10/20 * 10/20 = .0625 .
Cependant, si nos essais ne sont pas indépendants (par exemple, une fois que nous avons échantillonné un élève, il ne peut pas être remis en classe), alors la probabilité que les 4 élèves préféreraient le football serait calculée comme suit :
P(Les 4 élèves préfèrent le football) = 10/20 * 9/19 * 8/18 * 7/17 = .0433 .
Ces deux probabilités sont bien différentes. Considérez que dans cet exemple, la taille de notre échantillon (4 étudiants) n’est pas inférieure ou égale à 10 % de la population (20 étudiants), nous ne pourrons donc pas utiliser la condition des 10 %.
Cependant, considérons le tableau suivant qui montre la probabilité que les 4 élèves sélectionnés au hasard préfèrent le football, en fonction de la taille de la classe :
À mesure que la taille de l’échantillon par rapport à la taille de la population (par exemple « taille de la classe » dans cet exemple) diminue, la probabilité calculée entre les essais indépendants et les essais non indépendants se rapproche de plus en plus.
Notez que lorsque la taille de l’échantillon représente exactement 10 % de la taille de la population, la différence entre les probabilités des essais indépendants et des essais non indépendants est relativement similaire.
Et lorsque la taille de l’échantillon est bien inférieure à 10 % de la taille de la population (par exemple seulement 0,4 % de la taille de la population dans la dernière ligne du tableau), les probabilités entre essais indépendants et non indépendants sont extrêmement proches.
Conclusion
La condition de 10 % indique que la taille de notre échantillon doit être inférieure ou égale à 10 % de la taille de la population afin de pouvoir supposer en toute sécurité qu’un ensemble d’essais de Bernoulli est indépendant.
Bien sûr, il est préférable que la taille de notre échantillon soit bien inférieure à 10 % de la taille de la population afin que nos déductions sur la population soient aussi précises que possible. Par exemple, nous préférerions que la taille de notre échantillon ne représente que 5 % de la population plutôt que 10 %.
Ressources additionnelles
Une introduction à la distribution normale
Une introduction à la distribution binomiale
Une introduction au théorème central limite