Hoe u betrouwbaarheidsintervallen in r kunt vinden (met voorbeelden)
Een betrouwbaarheidsinterval is een reeks waarden die waarschijnlijk een populatieparameter met een bepaald betrouwbaarheidsniveau bevatten.
Het wordt berekend volgens de volgende algemene formule:
Betrouwbaarheidsinterval = (puntschatting) +/- (kritieke waarde)* (standaardfout)
Deze formule creëert een interval met een ondergrens en een bovengrens, die waarschijnlijk een populatieparameter met een zekere mate van betrouwbaarheid bevat:
Betrouwbaarheidsinterval = [ondergrens, bovengrens]
In deze tutorial wordt uitgelegd hoe u de volgende betrouwbaarheidsintervallen in R kunt berekenen:
1. Betrouwbaarheidsinterval voor een gemiddelde
2. Betrouwbaarheidsinterval voor een verschil in gemiddelden
3. Betrouwbaarheidsinterval voor een deel
4. Betrouwbaarheidsinterval voor een verschil in verhoudingen
Laten we gaan!
Voorbeeld 1: Betrouwbaarheidsinterval voor een gemiddelde
We gebruiken de volgende formule om een betrouwbaarheidsinterval voor een gemiddelde te berekenen:
Betrouwbaarheidsinterval = x +/- t n-1, 1-α/2 *(s/√n)
Goud:
- x : steekproefgemiddelden
- t: de t-kritische waarde
- s: standaardafwijking van het monster
- n: steekproefomvang
Voorbeeld: Stel dat we een willekeurige steekproef van schildpadden verzamelen met de volgende informatie:
- Steekproefomvang n = 25
- Gemiddeld monstergewicht x = 300
- Steekproefstandaardafwijking s = 18,5
De volgende code laat zien hoe je een betrouwbaarheidsinterval van 95% berekent voor het werkelijke gemiddelde gewicht van de schildpadpopulatie:
#input sample size, sample mean, and sample standard deviation n <- 25 xbar <- 300 s <- 18.5 #calculate margin of error margin <- qt(0.975,df=n-1)*s/sqrt(n) #calculate lower and upper bounds of confidence interval low <- xbar - margin low [1] 292.3636 high <- xbar + margin high [1] 307.6364
Het 95% betrouwbaarheidsinterval voor het werkelijke gemiddelde gewicht van de schildpadpopulatie is [292,36, 307,64] .
Voorbeeld 2: Betrouwbaarheidsinterval voor een verschil in gemiddelden
We gebruiken de volgende formule om een betrouwbaarheidsinterval te berekenen voor een verschil in populatiegemiddelden :
Betrouwbaarheidsinterval = ( x 1 – x 2 ) +/- t*√((s p 2 /n 1 ) + (s p 2 /n 2 ))
Goud:
- x 1 , x 2 : gemiddelde van monster 1, gemiddelde van monster 2
- t: de t-kritische waarde gebaseerd op het betrouwbaarheidsniveau en (n 1 + n 2 -2) vrijheidsgraden
- s p 2 : gepoolde variantie, berekend als ((n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- t: de t-kritische waarde
- n 1 , n 2 : steekproefomvang 1, steekproefomvang 2
Voorbeeld: Stel dat we het verschil in gemiddeld gewicht tussen twee verschillende soorten schildpadden willen schatten. Daarom verzamelen we uit elke populatie een willekeurige steekproef van 15 schildpadden. Hier volgen de samenvattende gegevens voor elk monster:
Voorbeeld 1:
- x1 = 310
- s1 = 18,5
- n1 = 15
Voorbeeld 2:
- x2 = 300
- s2 = 16,4
- n2 = 15
De volgende code laat zien hoe u een betrouwbaarheidsinterval van 95% berekent voor het werkelijke verschil in populatiegemiddelden:
#input sample size, sample mean, and sample standard deviation n1 <- 15 xbar1 <- 310 s1 <- 18.5 n2 <- 15 xbar2 <- 300 s2 <- 16.4 #calculate pooled variance sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2) #calculate margin of error margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2) #calculate lower and upper bounds of confidence interval low <- (xbar1-xbar2) - margin low [1] -3.055445 high <- (xbar1-xbar2) + margin high [1] 23.05544
Het 95% betrouwbaarheidsinterval voor het werkelijke verschil tussen de populatiegemiddelden is [-3,06; 23,06] .
Voorbeeld 3: Betrouwbaarheidsinterval voor een aandeel
We gebruiken de volgende formule om een betrouwbaarheidsinterval voor een aandeel te berekenen:
Betrouwbaarheidsinterval = p +/- z*(√ p(1-p) / n )
Goud:
- p: steekproefaandeel
- z: de gekozen z-waarde
- n: steekproefomvang
Voorbeeld: Stel dat we het aandeel inwoners van een provincie willen schatten dat voorstander is van een bepaalde wet. We selecteren een willekeurige steekproef van 100 inwoners en vragen hen wat hun standpunt is over de wet. Hier zijn de resultaten:
- Steekproefgrootte n = 100
- Aandeel ten gunste van de wet p = 0,56
De volgende code laat zien hoe je een betrouwbaarheidsinterval van 95% kunt berekenen voor het werkelijke percentage inwoners van het hele land dat voorstander is van de wet:
#input sample size and sample proportion n <- 100 p <- .56 #calculate margin of error margin <- qnorm(0.975)*sqrt(p*(1-p)/n) #calculate lower and upper bounds of confidence interval low <- p - margin low [1] 0.4627099 high <- p + margin high [1] 0.6572901
Het betrouwbaarheidsinterval van 95% voor het werkelijke percentage inwoners van het hele land dat voorstander is van de wet is [.463, .657] .
Voorbeeld 4: Betrouwbaarheidsinterval voor een verschil in verhoudingen
We gebruiken de volgende formule om een betrouwbaarheidsinterval voor een verschil in verhoudingen te berekenen:
Betrouwbaarheidsinterval = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )
Goud:
- p 1 , p 2 : aandeel van monster 1, aandeel van monster 2
- z: de z-kritische waarde gebaseerd op het betrouwbaarheidsniveau
- n 1 , n 2 : steekproefomvang 1, steekproefomvang 2
Voorbeeld: Stel dat we het verschil willen schatten tussen het aandeel inwoners dat een bepaalde wet in County A steunt, en het aandeel dat de wet in County B steunt. Hier zijn de samenvattende gegevens voor elke steekproef:
Voorbeeld 1:
- n1 = 100
- p 1 = 0,62 (dwz 62 van de 100 inwoners steunen de wet)
Voorbeeld 2:
- n2 = 100
- p 2 = 0,46 (dwz 46 van de 100 inwoners steunen de wet)
De volgende code laat zien hoe je een betrouwbaarheidsinterval van 95% kunt berekenen voor het werkelijke verschil in het aandeel inwoners dat de wet steunt tussen provincies:
#input sample sizes and sample proportions n1 <- 100 p1 <- .62 n2 <- 100 p2 <- .46 #calculate margin of error margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2) #calculate lower and upper bounds of confidence interval low <- (p1-p2) - margin low [1] 0.02364509 high <- (p1-p2) + margin high [1] 0.2963549
Het 95%-betrouwbaarheidsinterval voor het werkelijke verschil in het aandeel inwoners dat de wet steunt tussen provincies is [0,024; 0,296] .
Meer R-tutorials vindt u hier .