Come trovare gli intervalli di confidenza in r (con esempi)


Un intervallo di confidenza è un intervallo di valori che probabilmente contiene un parametro della popolazione con un certo livello di confidenza.

Si calcola secondo la seguente formula generale:

Intervallo di confidenza = (stima puntuale) +/- (valore critico)* (errore standard)

Questa formula crea un intervallo con un limite inferiore e un limite superiore, che probabilmente contiene un parametro della popolazione con un certo livello di confidenza:

Intervallo di confidenza = [limite inferiore, limite superiore]

Questo tutorial spiega come calcolare i seguenti intervalli di confidenza in R:

1. Intervallo di confidenza per una media

2. Intervallo di confidenza per una differenza di medie

3. Intervallo di confidenza per una proporzione

4. Intervallo di confidenza per una differenza nelle proporzioni

Andiamo!

Esempio 1: intervallo di confidenza per una media

Usiamo la seguente formula per calcolare un intervallo di confidenza per una media :

Intervallo di confidenza = x +/- t n-1, 1-α/2 *(s/√n)

Oro:

  • x : mezzi campione
  • t: il valore t-critico
  • s: deviazione standard campionaria
  • n: dimensione del campione

Esempio: supponiamo di raccogliere un campione casuale di tartarughe con le seguenti informazioni:

  • Dimensione del campione n = 25
  • Peso medio del campione x = 300
  • Deviazione standard del campione s = 18,5

Il codice seguente mostra come calcolare un intervallo di confidenza al 95% per il peso medio reale della popolazione di tartarughe:

 #input sample size, sample mean, and sample standard deviation
n <- 25
xbar <- 300 
s <- 18.5

#calculate margin of error
margin <- qt(0.975,df=n-1)*s/sqrt(n)

#calculate lower and upper bounds of confidence interval
low <- xbar - margin
low

[1] 292.3636

high <- xbar + margin
high

[1] 307.6364

L’intervallo di confidenza al 95% per il peso medio reale della popolazione delle tartarughe è [292,36, 307,64] .

Esempio 2: intervallo di confidenza per una differenza nelle medie

Usiamo la seguente formula per calcolare un intervallo di confidenza per una differenza nelle medie della popolazione :

Intervallo di confidenza = ( x 1x 2 ) +/- t*√((s p 2 /n 1 ) + (s p 2 /n 2 ))

Oro:

  • x 1 , x 2 : media del campione 1, media del campione 2
  • t: il valore t-critico basato sul livello di confidenza e (n 1 + n 2 -2) gradi di libertà
  • s p 2 : varianza aggregata, calcolata come ((n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
  • t: il valore t-critico
  • n1 , n2 : dimensione del campione 1, dimensione del campione 2

Esempio: Supponiamo di voler stimare la differenza di peso medio tra due diverse specie di tartarughe. Raccogliamo quindi un campione casuale di 15 tartarughe da ciascuna popolazione. Ecco i dati riepilogativi per ciascun campione:

Esempio 1:

  • x1 = 310
  • s1 = 18,5
  • n1 = 15

Esempio 2:

  • x2 = 300
  • s2 = 16,4
  • n2 = 15

Il codice seguente mostra come calcolare un intervallo di confidenza al 95% per la vera differenza nelle medie della popolazione:

 #input sample size, sample mean, and sample standard deviation
n1 <- 15
xbar1 <- 310 
s1 <- 18.5

n2 <- 15
xbar2 <- 300
s2 <- 16.4

#calculate pooled variance
sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2)

#calculate margin of error
margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2)

#calculate lower and upper bounds of confidence interval
low <- (xbar1-xbar2) - margin
low

[1] -3.055445

high <- (xbar1-xbar2) + margin
high

[1] 23.05544

L’intervallo di confidenza al 95% per la differenza reale tra le medie della popolazione è [-3,06, 23,06] .

Esempio 3: intervallo di confidenza per una proporzione

Usiamo la seguente formula per calcolare un intervallo di confidenza per una proporzione :

Intervallo di confidenza = p +/- z*(√ p(1-p) / n )

Oro:

  • p: proporzione del campione
  • z: il valore z scelto
  • n: dimensione del campione

Esempio: supponiamo di voler stimare la percentuale di residenti in una contea che sono favorevoli ad una determinata legge. Selezioniamo un campione casuale di 100 residenti e chiediamo loro quale sia la loro posizione rispetto alla legge. Ecco i risultati:

  • Dimensione del campione n = 100
  • Proporzione a favore della legge p = 0,56

Il seguente codice mostra come calcolare un intervallo di confidenza del 95% per la percentuale reale di residenti in tutta la contea che sono a favore della legge:

 #input sample size and sample proportion
n <- 100
p <- .56

#calculate margin of error
margin <- qnorm(0.975)*sqrt(p*(1-p)/n)

#calculate lower and upper bounds of confidence interval
low <- p - margin
low

[1] 0.4627099

high <- p + margin
high

[1] 0.6572901

L’intervallo di confidenza del 95% per la percentuale reale di residenti in tutta la contea che sono a favore della legge è [.463, .657] .

Esempio 4: intervallo di confidenza per una differenza nelle proporzioni

Usiamo la seguente formula per calcolare un intervallo di confidenza per una differenza nelle proporzioni :

Intervallo di confidenza = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )

Oro:

  • p 1 , p 2 : proporzione del campione 1, proporzione del campione 2
  • z: il valore z-critico basato sul livello di confidenza
  • n1 , n2 : dimensione del campione 1, dimensione del campione 2

Esempio: supponiamo di voler stimare la differenza tra la proporzione di residenti che sostengono una determinata legge nella contea A e la proporzione che sostiene la legge nella contea B. Ecco i dati riepilogativi per ciascun campione:

Esempio 1:

  • n1 = 100
  • p 1 = 0,62 (ovvero 62 abitanti su 100 sostengono la legge)

Esempio 2:

  • n2 = 100
  • p 2 = 0,46 (ovvero 46 abitanti su 100 sostengono la legge)

Il seguente codice mostra come calcolare un intervallo di confidenza del 95% per la differenza reale nella percentuale di residenti che sostengono la legge tra le contee:

 #input sample sizes and sample proportions
n1 <- 100
p1 <- .62

n2 <- 100
p2 <- .46

#calculate margin of error
margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)

#calculate lower and upper bounds of confidence interval
low <- (p1-p2) - margin
low

[1] 0.02364509


high <- (p1-p2) + margin
high

[1] 0.2963549

L’intervallo di confidenza del 95% per la vera differenza nella percentuale di residenti che sostengono la legge tra le contee è [0,024, 0,296] .

Puoi trovare altri tutorial su R qui .

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *