Les 6 hypothèses de la régression logistique (avec exemples)
La régression logistique est une méthode que nous pouvons utiliser pour ajuster un modèle de régression lorsque la variable de réponse est binaire.
Avant d’ajuster un modèle à un ensemble de données, la régression logistique fait les hypothèses suivantes :
Hypothèse n°1 : la variable de réponse est binaire
La régression logistique suppose que la variable de réponse ne prend que deux résultats possibles. Voici quelques exemples :
- Oui ou non
- Mâle ou femelle
- Réussir ou échouer
- Rédigé ou non rédigé
- Malin ou bénin
Comment vérifier cette hypothèse : comptez simplement le nombre de résultats uniques qui se produisent dans la variable de réponse. S’il y a plus de deux résultats possibles, vous devrez plutôt effectuer une régression ordinale .
Hypothèse n°2 : les observations sont indépendantes
La régression logistique suppose que les observations de l’ensemble de données sont indépendantes les unes des autres. Autrement dit, les observations ne doivent pas provenir de mesures répétées du même individu ni être liées les unes aux autres de quelque manière que ce soit.
Comment vérifier cette hypothèse : La manière la plus simple de vérifier cette hypothèse est de créer un graphique des résidus en fonction du temps (c’est-à-dire l’ordre des observations) et d’observer s’il existe ou non une tendance aléatoire. S’il n’y a pas de modèle aléatoire, cette hypothèse peut être violée.
Hypothèse n°3 : il n’y a pas de multicolinéarité parmi les variables explicatives
La régression logistique suppose qu’il n’y a pas de multicolinéarité grave entre les variables explicatives .
La multicolinéarité se produit lorsque deux ou plusieurs variables explicatives sont fortement corrélées les unes aux autres, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression. Si le degré de corrélation est suffisamment élevé entre les variables, cela peut poser des problèmes lors de l’ajustement et de l’interprétation du modèle.
Par exemple, supposons que vous souhaitiez effectuer une régression logistique en utilisant le saut vertical maximum comme variable de réponse et les variables suivantes comme variables explicatives :
- Taille du joueur
- Pointure du joueur
- Heures passées à pratiquer par jour
Dans ce cas, la taille et la pointure sont probablement fortement corrélées puisque les personnes de grande taille ont tendance à avoir des pointures plus grandes. Cela signifie que la multicolinéarité posera probablement un problème si nous utilisons ces deux variables dans la régression.
Comment vérifier cette hypothèse : le moyen le plus courant de détecter la multicolinéarité consiste à utiliser le facteur d’inflation de la variance (VIF), qui mesure la corrélation et la force de la corrélation entre les variables prédictives dans un modèle de régression. Consultez ce didacticiel pour une explication détaillée de la façon de calculer et d’interpréter les valeurs VIF.
Hypothèse n°4 : il n’y a pas de valeurs aberrantes extrêmes
La régression logistique suppose qu’il n’y a pas de valeurs aberrantes extrêmes ou d’observations influentes dans l’ensemble de données.
Comment vérifier cette hypothèse : le moyen le plus courant de tester les valeurs aberrantes extrêmes et les observations influentes dans un ensemble de données consiste à calculer la distance de Cook pour chaque observation. S’il y a effectivement des valeurs aberrantes, vous pouvez choisir de (1) les supprimer, (2) les remplacer par une valeur telle que la moyenne ou la médiane, ou (3) simplement les conserver dans le modèle mais en prendre note lors du rapport de la régression. résultats.
Hypothèse n°5 : Il existe une relation linéaire entre les variables explicatives et le logit de la variable de réponse
La régression logistique suppose qu’il existe une relation linéaire entre chaque variable explicative et le logit de la variable de réponse. Rappelons que le logit est défini comme :
Logit(p) = log(p / (1-p)) où p est la probabilité d’un résultat positif.
Comment vérifier cette hypothèse : Le moyen le plus simple de voir si cette hypothèse est vérifiée est d’utiliser un test de Box-Tidwell.
Hypothèse n°6 : la taille de l’échantillon est suffisamment grande
La régression logistique suppose que la taille de l’échantillon de l’ensemble de données est suffisamment grande pour tirer des conclusions valides du modèle de régression logistique ajusté.
Comment vérifier cette hypothèse : En règle générale, vous devriez avoir un minimum de 10 cas avec le résultat le moins fréquent pour chaque variable explicative. Par exemple, si vous avez 3 variables explicatives et que la probabilité attendue du résultat le moins fréquent est de 0,20, alors vous devriez avoir une taille d’échantillon d’au moins (10*3) / 0,20 = 150 .
Hypothèses de régression logistique par rapport à la régression linéaire
Contrairement à la régression linéaire, la régression logistique ne nécessite pas :
- Une relation linéaire entre la ou les variables explicatives et la variable de réponse.
- Les résidus du modèle à distribuer normalement.
- Les résidus doivent avoir une variance constante, également connue sous le nom d’homoscédasticité .
Connexes : Les quatre hypothèses de la régression linéaire
Ressources additionnelles
4 exemples d’utilisation de la régression logistique dans la vie réelle
Comment effectuer une régression logistique dans SPSS
Comment effectuer une régression logistique dans Excel
Comment effectuer une régression logistique dans Stata