Comment calculer l’intervalle de confiance pour le coefficient de régression dans R
Dans un modèle de régression linéaire, un coefficient de régression nous indique la variation moyenne de la variable de réponse associée à une augmentation d’une unité de la variable prédictive.
Nous pouvons utiliser la formule suivante pour calculer un intervalle de confiance pour un coefficient de régression :
Intervalle de confiance pour β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
où:
- b 1 = Coefficient de régression indiqué dans le tableau de régression
- t 1-∝/2, n-2 = La valeur critique t pour le niveau de confiance 1-∝ avec n-2 degrés de liberté où n est le nombre total d’observations dans notre ensemble de données
- se(b 1 ) = L’erreur type de b 1 indiquée dans le tableau de régression
L’exemple suivant montre comment calculer un intervalle de confiance pour une pente de régression dans la pratique.
Exemple : intervalle de confiance pour le coefficient de régression dans R
Supposons que nous souhaitions ajuster un modèle de régression linéaire simple utilisant les heures étudiées comme variable prédictive et les résultats à l’examen comme variable de réponse pour 15 étudiants d’une classe particulière :
Nous pouvons utiliser la fonction lm() pour ajuster ce modèle de régression linéaire simple dans R :
#create data frame df <- data.frame(hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14), score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89)) #fit linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -5.140 -3.219 -1.193 2.816 5.772 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 65.334 2.106 31.023 1.41e-13 *** hours 1.982 0.248 7.995 2.25e-06 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.641 on 13 degrees of freedom Multiple R-squared: 0.831, Adjusted R-squared: 0.818 F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06
En utilisant les estimations de coefficients dans le résultat, nous pouvons écrire le modèle de régression linéaire simple ajusté comme suit :
Score = 65,334 + 1,982*(Heures étudiées)
Notez que le coefficient de régression pour les heures est de 1,982 .
Cela nous indique que chaque heure supplémentaire d’étude consacrée est associée à une augmentation moyenne de 1,982 de la note à l’examen.
Nous pouvons utiliser la fonction confint() pour calculer un intervalle de confiance à 95 % pour le coefficient de régression :
#calculate confidence interval for regression coefficient for 'hours' confint(fit, 'hours', level=0.95) 2.5 % 97.5 % hours 1.446682 2.518068
L’intervalle de confiance à 95 % pour le coefficient de régression est [1,446, 2,518] .
Étant donné que cet intervalle de confiance ne contient pas la valeur 0, nous pouvons conclure qu’il existe une association statistiquement significative entre les heures étudiées et la note à l’examen.
Nous pouvons également confirmer que cela est correct en calculant manuellement l’intervalle de confiance à 95 % pour le coefficient de régression :
- IC à 95 % pour β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
- IC à 95 % pour β 1 : 1,982 ± t 0,975, 15-2 * 0,248
- IC à 95 % pour β 1 : 1,982 ± 2,1604 * 0,248
- IC à 95 % pour β 1 : [1,446, 2,518]
L’intervalle de confiance à 95 % pour le coefficient de régression est [1,446, 2,518] .
Remarque n°1 : Nous avons utilisé le calculateur de distribution t inverse pour trouver la valeur critique t qui correspond à un niveau de confiance de 95 % avec 13 degrés de liberté.
Remarque n°2 : Pour calculer un intervalle de confiance avec un niveau de confiance différent, modifiez simplement la valeur de l’argument level dans la fonction confint() .
Ressources additionnelles
Les didacticiels suivants fournissent des informations supplémentaires sur la régression linéaire dans R :
Comment interpréter la sortie de régression dans R
Comment effectuer une régression linéaire simple dans R
Comment effectuer une régression linéaire multiple dans R
Comment effectuer une régression logistique dans R