Hoe een binomiaal betrouwbaarheidsinterval in python te berekenen
Een betrouwbaarheidsinterval voor een binomiale waarschijnlijkheid wordt berekend met behulp van de volgende formule:
Betrouwbaarheidsinterval = p +/- z*(√ p(1-p) / n )
Goud:
- p: aandeel “successen”
- z: de gekozen z-waarde
- n: steekproefomvang
De eenvoudigste manier om dit type betrouwbaarheidsinterval in Python te berekenen, is door de functie proportion_confint() uit het statsmodels- pakket te gebruiken:
proportion_confint ( count , nobs , alpha = 0.05 , method = ' normal ' )
Goud:
- count : Aantal successen
- nobs : totaal aantal pogingen
- alpha : significantieniveau (standaard is 0,05)
- methode : methode die moet worden gebruikt voor het betrouwbaarheidsinterval (standaard is “normaal”)
Het volgende voorbeeld laat zien hoe u deze functie in de praktijk kunt gebruiken.
Voorbeeld: Bereken het binomiale betrouwbaarheidsinterval in Python
Stel dat we een schatting willen maken van het aandeel inwoners in een provincie dat voorstander is van een bepaalde wet.
We besluiten een willekeurige steekproef van 100 inwoners te selecteren en constateren dat 56 van hen vóór de wet zijn.
We kunnen de functie proportion_confint() gebruiken om het betrouwbaarheidsinterval van 95% te berekenen voor het werkelijke aantal inwoners dat deze wet in de hele provincie heeft:
from statsmodels. stats . proportion import proportion_confint #calculate 95% confidence interval with 56 successes in 100 trials proportion_confint(count= 56 , nobs= 100 ) (0.4627099463758483, 0.6572900536241518)
Het 95% betrouwbaarheidsinterval voor het werkelijke percentage inwoners van de provincie dat de wet steunt, is [.4627, .6573] .
Standaard gebruikt deze functie de asymptotische normale benadering om het betrouwbaarheidsinterval te berekenen. We kunnen het methodeargument echter gebruiken om een andere methode te gebruiken.
De standaardfunctie die in de programmeertaal R wordt gebruikt om een binomiaal betrouwbaarheidsinterval te berekenen, is bijvoorbeeld het Wilson-score-interval.
We kunnen de volgende syntaxis gebruiken om deze methode te specificeren bij het berekenen van het betrouwbaarheidsinterval in Python:
from statsmodels. stats . proportion import proportion_confint #calculate 95% confidence interval with 56 successes in 100 trials proportion_confint(count= 56 , nobs= 100 , method=' wilson ') (0.4622810465167698, 0.6532797336983921)
Dit vertelt ons dat het betrouwbaarheidsinterval van 95% voor het werkelijke percentage inwoners van de provincie dat de wet steunt [.4623, .6533] is.
Dit betrouwbaarheidsinterval wijkt enigszins af van het interval dat met de normale benadering wordt berekend.
Merk op dat we de alfawaarde ook kunnen aanpassen om een ander betrouwbaarheidsinterval te berekenen.
We kunnen alpha bijvoorbeeld instellen op 0,10 om een betrouwbaarheidsinterval van 90% te berekenen:
from statsmodels. stats . proportion import proportion_confint #calculate 90% confidence interval with 56 successes in 100 trials proportion_confint(count= 56 , nobs= 100 , alpha= 0.10 , method=' wilson ') (0.47783814499647415, 0.6390007285095451)
Dit vertelt ons dat het betrouwbaarheidsinterval van 90% voor het werkelijke percentage inwoners van de provincie dat de wet steunt [.4778, .6390] is.
Opmerking : u kunt de volledige documentatie voor de functie proportion_confint() hier vinden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in Python uitvoert:
Hoe een betrouwbaarheidsinterval in Python te plotten
Hoe binomiale distributie in Python te gebruiken