Comment calculer l’intervalle de confiance pour le coefficient de régression dans R



Dans un modèle de régression linéaire, un coefficient de régression nous indique la variation moyenne de la variable de réponse associée à une augmentation d’une unité de la variable prédictive.

Nous pouvons utiliser la formule suivante pour calculer un intervalle de confiance pour un coefficient de régression :

Intervalle de confiance pour β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )

où:

  •   b 1 = Coefficient de régression indiqué dans le tableau de régression
  • t 1-∝/2, n-2 = La valeur critique t pour le niveau de confiance 1-∝ avec n-2 degrés de liberté où n est le nombre total d’observations dans notre ensemble de données
  • se(b 1 ) = L’erreur type de b 1 indiquée dans le tableau de régression

L’exemple suivant montre comment calculer un intervalle de confiance pour une pente de régression dans la pratique.

Exemple : intervalle de confiance pour le coefficient de régression dans R

Supposons que nous souhaitions ajuster un modèle de régression linéaire simple utilisant les heures étudiées comme variable prédictive et les résultats à l’examen comme variable de réponse pour 15 étudiants d’une classe particulière :

Nous pouvons utiliser la fonction lm() pour ajuster ce modèle de régression linéaire simple dans R :

#create data frame
df <- data.frame(hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-5.140 -3.219 -1.193  2.816  5.772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   65.334      2.106  31.023 1.41e-13 ***
hours          1.982      0.248   7.995 2.25e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared:  0.831,	Adjusted R-squared:  0.818 
F-statistic: 63.91 on 1 and 13 DF,  p-value: 2.253e-06

En utilisant les estimations de coefficients dans le résultat, nous pouvons écrire le modèle de régression linéaire simple ajusté comme suit :

Score = 65,334 + 1,982*(Heures étudiées)

Notez que le coefficient de régression pour les heures est de 1,982 .

Cela nous indique que chaque heure supplémentaire d’étude consacrée est associée à une augmentation moyenne de 1,982 de la note à l’examen.

Nous pouvons utiliser la fonction confint() pour calculer un intervalle de confiance à 95 % pour le coefficient de régression :

#calculate confidence interval for regression coefficient for 'hours'
confint(fit, 'hours', level=0.95)

         2.5 %   97.5 %
hours 1.446682 2.518068

L’intervalle de confiance à 95 % pour le coefficient de régression est [1,446, 2,518] .

Étant donné que cet intervalle de confiance ne contient pas la valeur 0, nous pouvons conclure qu’il existe une association statistiquement significative entre les heures étudiées et la note à l’examen.

Nous pouvons également confirmer que cela est correct en calculant manuellement l’intervalle de confiance à 95 % pour le coefficient de régression :

  • IC à 95 % pour β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
  • IC à 95 % pour β 1 : 1,982 ± t 0,975, 15-2 * 0,248
  • IC à 95 % pour β 1 : 1,982 ± 2,1604 * 0,248
  • IC à 95 % pour β 1 : [1,446, 2,518]

L’intervalle de confiance à 95 % pour le coefficient de régression est [1,446, 2,518] .

Remarque n°1 : Nous avons utilisé le calculateur de distribution t inverse pour trouver la valeur critique t qui correspond à un niveau de confiance de 95 % avec 13 degrés de liberté.

Remarque n°2 : Pour calculer un intervalle de confiance avec un niveau de confiance différent, modifiez simplement la valeur de l’argument level dans la fonction confint() .

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur la régression linéaire dans R :

Comment interpréter la sortie de régression dans R
Comment effectuer une régression linéaire simple dans R
Comment effectuer une régression linéaire multiple dans R
Comment effectuer une régression logistique dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *