Comment trouver des intervalles de confiance dans R (avec des exemples)
Un intervalle de confiance est une plage de valeurs susceptible de contenir un paramètre de population avec un certain niveau de confiance.
Il est calculé selon la formule générale suivante :
Intervalle de confiance = (estimation ponctuelle) +/- (valeur critique)* (erreur standard)
Cette formule crée un intervalle avec une limite inférieure et une limite supérieure, qui contient probablement un paramètre de population avec un certain niveau de confiance :
Intervalle de confiance = [limite inférieure, limite supérieure]
Ce tutoriel explique comment calculer les intervalles de confiance suivants dans R :
1. Intervalle de confiance pour une moyenne
2. Intervalle de confiance pour une différence de moyenne
3. Intervalle de confiance pour une proportion
4. Intervalle de confiance pour une différence de proportions
Allons-y !
Exemple 1 : Intervalle de confiance pour une moyenne
Nous utilisons la formule suivante pour calculer un intervalle de confiance pour une moyenne :
Intervalle de confiance = x +/- t n-1, 1-α/2 *(s/√n)
où:
- x : moyenne de l’échantillon
- t : la valeur t-critique
- s : écart type de l’échantillon
- n : taille de l’échantillon
Exemple : Supposons que nous collections un échantillon aléatoire de tortues avec les informations suivantes :
- Taille de l’échantillon n = 25
- Poids moyen de l’échantillon x = 300
- Écart type de l’échantillon s = 18,5
Le code suivant montre comment calculer un intervalle de confiance de 95 % pour le poids moyen réel de la population de tortues :
#input sample size, sample mean, and sample standard deviation n <- 25 xbar <- 300 s <- 18.5 #calculate margin of error margin <- qt(0.975,df=n-1)*s/sqrt(n) #calculate lower and upper bounds of confidence interval low <- xbar - margin low [1] 292.3636 high <- xbar + margin high [1] 307.6364
L’intervalle de confiance à 95 % pour le poids moyen réel de la population de tortues est de [292,36, 307,64] .
Exemple 2 : Intervalle de confiance pour une différence de moyenne
Nous utilisons la formule suivante pour calculer un intervalle de confiance pour une différence dans les moyennes de population :
Intervalle de confiance = ( x 1 – x 2 ) +/- t*√((s p 2 /n 1 ) + (s p 2 /n 2 ))
où:
- x 1 , x 2 : moyenne de l’échantillon 1, moyenne de l’échantillon 2
- t : la valeur t-critique basée sur le niveau de confiance et (n 1 + n 2 -2) degrés de liberté
- s p 2 : variance groupée, calculée comme ((n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- t : la valeur t-critique
- n 1 , n 2 : taille de l’échantillon 1, taille de l’échantillon 2
Exemple : Supposons que nous souhaitions estimer la différence de poids moyen entre deux espèces différentes de tortues. Nous collectons donc un échantillon aléatoire de 15 tortues de chaque population. Voici les données récapitulatives pour chaque échantillon :
Échantillon 1 :
- x1 = 310
- s 1 = 18,5
- n 1 = 15
Échantillon 2 :
- x2 = 300
- s 2 = 16,4
- n2 = 15
Le code suivant montre comment calculer un intervalle de confiance de 95 % pour la véritable différence dans les moyennes de la population :
#input sample size, sample mean, and sample standard deviation n1 <- 15 xbar1 <- 310 s1 <- 18.5 n2 <- 15 xbar2 <- 300 s2 <- 16.4 #calculate pooled variance sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2) #calculate margin of error margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2) #calculate lower and upper bounds of confidence interval low <- (xbar1-xbar2) - margin low [1] -3.055445 high <- (xbar1-xbar2) + margin high [1] 23.05544
L’intervalle de confiance à 95 % pour la véritable différence entre les moyennes de la population est de [-3,06, 23,06] .
Exemple 3 : Intervalle de confiance pour une proportion
Nous utilisons la formule suivante pour calculer un intervalle de confiance pour une proportion :
Intervalle de confiance = p +/- z*(√ p(1-p) / n )
où:
- p : proportion de l’échantillon
- z : la valeur z choisie
- n : taille de l’échantillon
Exemple : Supposons que nous souhaitions estimer la proportion de résidents d’un comté qui sont favorables à une certaine loi. Nous sélectionnons un échantillon aléatoire de 100 résidents et leur demandons quelle est leur position sur la loi. Voici les résultats:
- Taille de l’échantillon n = 100
- Proportion en faveur de la loi p = 0,56
Le code suivant montre comment calculer un intervalle de confiance de 95 % pour la véritable proportion de résidents de l’ensemble du comté qui sont en faveur de la loi :
#input sample size and sample proportion n <- 100 p <- .56 #calculate margin of error margin <- qnorm(0.975)*sqrt(p*(1-p)/n) #calculate lower and upper bounds of confidence interval low <- p - margin low [1] 0.4627099 high <- p + margin high [1] 0.6572901
L’intervalle de confiance de 95 % pour la véritable proportion de résidents dans l’ensemble du comté qui sont en faveur de la loi est de [.463, .657] .
Exemple 4 : Intervalle de confiance pour une différence de proportions
Nous utilisons la formule suivante pour calculer un intervalle de confiance pour une différence de proportions :
Intervalle de confiance = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )
où:
- p 1 , p 2 : proportion de l’échantillon 1, proportion de l’échantillon 2
- z : la valeur z-critique basée sur le niveau de confiance
- n 1 , n 2 : taille de l’échantillon 1, taille de l’échantillon 2
Exemple : Supposons que nous souhaitions estimer la différence entre la proportion de résidents qui soutiennent une certaine loi dans le comté A et la proportion qui soutient la loi dans le comté B. Voici les données récapitulatives pour chaque échantillon :
Échantillon 1 :
- n 1 = 100
- p 1 = 0,62 (soit 62 habitants sur 100 soutiennent la loi)
Échantillon 2 :
- n2 = 100
- p 2 = 0,46 (soit 46 habitants sur 100 soutiennent la loi)
Le code suivant montre comment calculer un intervalle de confiance de 95 % pour la véritable différence de proportion de résidents soutenant la loi entre les comtés :
#input sample sizes and sample proportions n1 <- 100 p1 <- .62 n2 <- 100 p2 <- .46 #calculate margin of error margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2) #calculate lower and upper bounds of confidence interval low <- (p1-p2) - margin low [1] 0.02364509 high <- (p1-p2) + margin high [1] 0.2963549
L’intervalle de confiance de 95 % pour la véritable différence de proportion de résidents qui soutiennent la loi entre les comtés est de [0,024, 0,296] .
Vous pouvez trouver plus de didacticiels R ici .