Comment interpréter la sortie de régression dans R



Pour ajuster un modèle de régression linéaire dans R, nous pouvons utiliser la commande lm() .

Pour afficher la sortie du modèle de régression, nous pouvons alors utiliser la commande summary() .

Ce didacticiel explique comment interpréter chaque valeur de la sortie de régression dans R.

Exemple : interprétation de la sortie de régression dans R

Le code suivant montre comment ajuster un modèle de régression linéaire multiple avec l’ensemble de données mtcars intégré en utilisant hp , drat et wt comme variables prédictives et mpg comme variable de réponse :

#fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3598 -1.8374 -0.5099  0.9681  5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934   6.156303   4.775 5.13e-05 ***
hp          -0.032230   0.008925  -3.611 0.001178 ** 
drat         1.615049   1.226983   1.316 0.198755    
wt          -3.227954   0.796398  -4.053 0.000364 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared:  0.8369,	Adjusted R-squared:  0.8194 
F-statistic: 47.88 on 3 and 28 DF,  p-value: 3.768e-11

Voici comment interpréter chaque valeur de la sortie :

Appel

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Cette section nous rappelle la formule que nous avons utilisée dans notre modèle de régression. Nous pouvons voir que nous avons utilisé mpg comme variable de réponse et hp , drat et wt comme variables prédictives. Chaque variable provenait de l’ensemble de données appelé mtcars .

Résidus

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3598 -1.8374 -0.5099  0.9681  5.7078 

Cette section affiche un résumé de la distribution des résidus du modèle de régression. Rappelons qu’un résidu est la différence entre la valeur observée et la valeur prédite du modèle de régression.

Le résidu minimum était de -3,3598 , le résidu médian était de -0,5099 et le résidu maximum était de 5,7078 .

Coefficients

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934   6.156303   4.775 5.13e-05 ***
hp          -0.032230   0.008925  -3.611 0.001178 ** 
drat         1.615049   1.226983   1.316 0.198755    
wt          -3.227954   0.796398  -4.053 0.000364 ***

---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Cette section affiche les coefficients estimés du modèle de régression. Nous pouvons utiliser ces coefficients pour former l’équation de régression estimée suivante :

mpg = 29,39 – 0,03*ch + 1,62*drat – 3,23*poids

Pour chaque variable prédictive, nous recevons les valeurs suivantes :

Estimation : le coefficient estimé. Cela nous indique l’augmentation moyenne de la variable de réponse associée à une augmentation d’une unité de la variable prédictive, en supposant que toutes les autres variables prédictives restent constantes.

Norme. Erreur : Il s’agit de l’erreur type du coefficient. Il s’agit d’une mesure de l’incertitude de notre estimation du coefficient.

Valeur t : il s’agit de la statistique t pour la variable prédictive, calculée comme (Estimation) / (Erreur standard).

Pr(>|t|) : Il s’agit de la valeur p qui correspond à la statistique t. Si cette valeur est inférieure à un certain niveau alpha (par exemple 0,05), la variable prédictive est dite statistiquement significative.

Si nous utilisions un niveau alpha de α = 0,05 pour déterminer quels prédicteurs étaient significatifs dans ce modèle de régression, nous dirions que hp et wt sont des prédicteurs statistiquement significatifs alors que drat ne l’est pas.

Évaluation de l’adéquation du modèle

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared:  0.8369,	Adjusted R-squared:  0.8194 
F-statistic: 47.88 on 3 and 28 DF,  p-value: 3.768e-11

Cette dernière section affiche divers chiffres qui nous aident à évaluer dans quelle mesure le modèle de régression correspond à notre ensemble de données.

Erreur type résiduelle : cela nous indique la distance moyenne entre les valeurs observées et la ligne de régression. Plus la valeur est petite, plus le modèle de régression est capable de s’adapter aux données.

Les degrés de liberté sont calculés comme nk-1 où n = nombre total d’observations et k = nombre de prédicteurs. Dans cet exemple, mtcars a 32 observations et nous avons utilisé 3 prédicteurs dans le modèle de régression, donc les degrés de liberté sont 32 – 3 – 1 = 28.

R-carré multiple : C’est ce qu’on appelle le coefficient de détermination. Il nous indique la proportion de la variance de la variable de réponse qui peut être expliquée par les variables prédictives.

Cette valeur varie de 0 à 1. Plus elle est proche de 1, plus les variables prédictives sont capables de prédire la valeur de la variable de réponse.

R-carré ajusté : il s’agit d’une version modifiée du R-carré qui a été ajustée en fonction du nombre de prédicteurs dans le modèle. Il est toujours inférieur au R au carré.

Le R-carré ajusté peut être utile pour comparer l’ajustement de différents modèles de régression qui utilisent différents nombres de variables prédictives.

Statistique F : indique si le modèle de régression fournit un meilleur ajustement aux données qu’un modèle qui ne contient aucune variable indépendante. Essentiellement, il teste si le modèle de régression dans son ensemble est utile.

Valeur p : Il s’agit de la valeur p qui correspond à la statistique F. Si cette valeur est inférieure à un certain niveau de signification (par exemple 0,05), alors le modèle de régression s’adapte mieux aux données qu’un modèle sans prédicteurs.

Lors de la construction de modèles de régression, nous espérons que cette valeur p est inférieure à un certain niveau de signification, car elle indique que les variables prédictives sont réellement utiles pour prédire la valeur de la variable de réponse.

Ressources additionnelles

Comment effectuer une régression linéaire simple dans R
Comment effectuer une régression linéaire multiple dans R
Qu’est-ce qu’une bonne valeur R au carré ?

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *