Comment interpréter Pr(>|z|) dans la sortie de régression logistique dans R
Chaque fois que vous effectuez une régression logistique dans R, la sortie de votre modèle de régression sera affichée au format suivant :
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -17.638452 9.165482 -1.924 0.0543 .
disp -0.004153 0.006621 -0.627 0.5305
drat 4.879396 2.268115 2.151 0.0315 *
La colonne Pr(>|z|) représente la valeur p associée à la valeur dans la colonne de valeur z .
Si la valeur p est inférieure à un certain niveau de signification (par exemple α = 0,05), cela indique que la variable prédictive a une relation statistiquement significative avec la variable de réponse dans le modèle.
L’exemple suivant montre comment interpréter les valeurs de la colonne Pr(>|z|) pour un modèle de régression logistique dans la pratique.
Exemple : Comment interpréter les valeurs Pr(>|z|)
Le code suivant montre comment ajuster un modèle de régression logistique dans R à l’aide de l’ensemble de données mtcars intégré :
#fit logistic regression model
model <- glm(am ~ disp + drat, data=mtcars, family=binomial)
#view model summary
summary(model)
Call:
glm(formula = am ~ disp + drat, family = binomial, data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5773 -0.2273 -0.1155 0.5196 1.8957
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -17.638452 9.165482 -1.924 0.0543 .
disp -0.004153 0.006621 -0.627 0.5305
drat 4.879396 2.268115 2.151 0.0315 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 43.230 on 31 degrees of freedom
Residual deviance: 21.268 on 29 degrees of freedom
AIC: 27.268
Number of Fisher Scoring iterations: 6
Voici comment interpréter les valeurs de la colonne Pr(>|z|) :
- La valeur p pour la variable prédictive « disp » est de 0,5305 . Puisque cette valeur n’est pas inférieure à 0,05, elle n’a pas de relation statistiquement significative avec la variable de réponse dans le modèle.
- La valeur p pour la variable prédictive « drat » est de 0,0315 . Puisque cette valeur est inférieure à 0,05, il existe une relation statistiquement significative avec la variable de réponse dans le modèle.
Les codes de signification sous le tableau des coefficients nous indiquent qu’un seul astérisque (*) à côté de la valeur p de 0,0315 signifie que la valeur p est statistiquement significative à α = 0,05.
Comment Pr(>|z|) est-il calculé ?
Voici comment la valeur de Pr(>|z|) est réellement calculée :
Étape 1 : Calculer la valeur z
Tout d’abord, nous calculons la valeur z à l’aide de la formule suivante :
- Valeur z = Estimation / Std. Erreur
Par exemple, voici comment calculer la valeur z pour la variable prédictive « drat » :
#calculate z-value 4.879396 / 2.268115 [1] 2.151
Étape 2 : Calculer la valeur p
Ensuite, nous calculons la valeur p bilatérale. Cela représente la probabilité que la valeur absolue de la distribution normale soit supérieure à 2,151 ou inférieure à -2,151.
Nous pouvons utiliser la formule suivante dans R pour calculer cette valeur :
- valeur p = 2 * (1-pnorm (valeur z))
Par exemple, voici comment calculer la valeur p bilatérale pour une valeur z de 2,151 :
#calculate p-value
2*(1-pnorm(2.151))
[1] 0.0314762
Notez que cette valeur p correspond à la valeur p dans la sortie de régression ci-dessus.
Ressources additionnelles
Les didacticiels suivants expliquent comment ajuster différents modèles de régression dans R :
Comment effectuer une régression logistique dans R
Comment effectuer une régression linéaire simple dans R
Comment effectuer une régression linéaire multiple dans R