La condizione del 10% in statistica: definizione ed esempio


Una prova Bernoulli è un esperimento con solo due possibili esiti – “successo” o “fallimento” – e la probabilità di successo è la stessa ogni volta che l’esperimento viene condotto.

Un esempio di saggio di Bernoulli è il lancio di una moneta. La moneta può atterrare solo su due teste (potremmo chiamare testa un “colpo” e croce un “fallimento”) e la probabilità di successo su ogni lancio è 0,5, presupponendo che la moneta sia giusta.

Spesso in statistica, quando vogliamo calcolare le probabilità che coinvolgono più di alcune prove di Bernoulli, utilizziamo la distribuzione normale come approssimazione. Tuttavia, per fare ciò dobbiamo presupporre che i processi siano indipendenti.

Nei casi in cui gli studi non sono veramente indipendenti, possiamo sempre supporre che lo siano se la dimensione del campione con cui stiamo lavorando non supera il 10% della dimensione della popolazione. Questa è chiamata la condizione del 10% .

La condizione del 10%: finché la dimensione del campione è inferiore o uguale al 10% della dimensione della popolazione, possiamo sempre supporre che i test di Bernoulli siano indipendenti.

L’intuizione dietro la condizione del 10%.

Per sviluppare un’intuizione dietro la condizione del 10%, considera il seguente esempio.

Supponiamo che la percentuale reale di studenti di una determinata classe che preferiscono il calcio al basket sia del 50%. Sia la variabile casuale X il numero di studenti selezionati casualmente in 4 prove che preferiscono il calcio al basket. Diciamo che vogliamo capire la probabilità che i 4 studenti selezionati casualmente preferiscano il calcio al basket.

Se la dimensione della nostra classe fosse di 20 studenti e le nostre prove fossero indipendenti (ad esempio, potremmo prelevare campioni ripetuti di tutti i 20 studenti), allora la probabilità che ogni studente preferisca il calcio al basket potrebbe essere calcolata come segue:

P(I 4 studenti preferiscono il calcio) = 10/20 * 10/20 * 10/20 * 10/20 = .0625 .

Tuttavia, se le nostre prove non sono indipendenti (ad esempio, una volta campione uno studente, non può essere riportato in classe), allora la probabilità che tutti e 4 gli studenti preferiscano il calcio verrebbe calcolata come segue:

P(I 4 studenti preferiscono il calcio) = 10/20 * 9/19 * 8/18 * 7/17 = .0433 .

Queste due probabilità sono molto diverse. Considera che in questo esempio la dimensione del nostro campione (4 studenti) non è inferiore o uguale al 10% della popolazione (20 studenti), quindi non saremo in grado di utilizzare la condizione del 10%.

Tuttavia, considera la seguente tabella che mostra la probabilità che i 4 studenti selezionati a caso preferirebbero il calcio, in base alle dimensioni della classe:

Il 10% dichiara nelle statistiche

Man mano che la dimensione del campione rispetto alla dimensione della popolazione (ad esempio “dimensione della classe” in questo esempio) diminuisce, la probabilità calcolata tra prove indipendenti e prove non indipendenti si avvicina sempre di più.

Si noti che quando la dimensione del campione è esattamente il 10% della dimensione della popolazione, la differenza tra le probabilità delle prove indipendenti e delle prove non indipendenti è relativamente simile.

E quando la dimensione del campione è molto inferiore al 10% della dimensione della popolazione (ad esempio, solo lo 0,4% della dimensione della popolazione nell’ultima riga della tabella), le probabilità tra studi indipendenti e non indipendenti sono estremamente vicine.

Conclusione

La condizione del 10% afferma che la dimensione del nostro campione deve essere inferiore o uguale al 10% della dimensione della popolazione per poter assumere con sicurezza che una serie di studi Bernoulli sia indipendente.

Naturalmente, è meglio che la dimensione del nostro campione sia ben inferiore al 10% della dimensione della popolazione in modo che le nostre inferenze sulla popolazione siano quanto più accurate possibile. Ad esempio, preferiremmo che la dimensione del nostro campione fosse solo il 5% della popolazione anziché il 10%.

Risorse addizionali

Un’introduzione alla distribuzione normale
Un’introduzione alla distribuzione binomiale
Un’introduzione al teorema del limite centrale

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *