Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Les 6 hypothèses de la régression logistique (avec exemples)



La régression logistique est une méthode que nous pouvons utiliser pour ajuster un modèle de régression lorsque la variable de réponse est binaire.

Avant d’ajuster un modèle à un ensemble de données, la régression logistique fait les hypothèses suivantes :

Hypothèse n°1 : la variable de réponse est binaire

La régression logistique suppose que la variable de réponse ne prend que deux résultats possibles. Voici quelques exemples :

  • Oui ou non
  • Mâle ou femelle
  • Réussir ou échouer
  • Rédigé ou non rédigé
  • Malin ou bénin

Comment vérifier cette hypothèse : comptez simplement le nombre de résultats uniques qui se produisent dans la variable de réponse. S’il y a plus de deux résultats possibles, vous devrez plutôt effectuer une régression ordinale .

Hypothèse n°2 : les observations sont indépendantes

La régression logistique suppose que les observations de l’ensemble de données sont indépendantes les unes des autres. Autrement dit, les observations ne doivent pas provenir de mesures répétées du même individu ni être liées les unes aux autres de quelque manière que ce soit.

Comment vérifier cette hypothèse : La manière la plus simple de vérifier cette hypothèse est de créer un graphique des résidus en fonction du temps (c’est-à-dire l’ordre des observations) et d’observer s’il existe ou non une tendance aléatoire. S’il n’y a pas de modèle aléatoire, cette hypothèse peut être violée.

Hypothèse n°3 : il n’y a pas de multicolinéarité parmi les variables explicatives

La régression logistique suppose qu’il n’y a pas de multicolinéarité grave entre les variables explicatives .

La multicolinéarité se produit lorsque deux ou plusieurs variables explicatives sont fortement corrélées les unes aux autres, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression. Si le degré de corrélation est suffisamment élevé entre les variables, cela peut poser des problèmes lors de l’ajustement et de l’interprétation du modèle.

Par exemple, supposons que vous souhaitiez effectuer une régression logistique en utilisant le saut vertical maximum comme variable de réponse et les variables suivantes comme variables explicatives :

  • Taille du joueur
  • Pointure du joueur
  • Heures passées à pratiquer par jour

Dans ce cas, la taille et la pointure sont probablement fortement corrélées puisque les personnes de grande taille ont tendance à avoir des pointures plus grandes. Cela signifie que la multicolinéarité posera probablement un problème si nous utilisons ces deux variables dans la régression.

Comment vérifier cette hypothèse : le moyen le plus courant de détecter la multicolinéarité consiste à utiliser le facteur d’inflation de la variance (VIF), qui mesure la corrélation et la force de la corrélation entre les variables prédictives dans un modèle de régression. Consultez ce didacticiel pour une explication détaillée de la façon de calculer et d’interpréter les valeurs VIF.

Hypothèse n°4 : il n’y a pas de valeurs aberrantes extrêmes

La régression logistique suppose qu’il n’y a pas de valeurs aberrantes extrêmes ou d’observations influentes dans l’ensemble de données.

Comment vérifier cette hypothèse : le moyen le plus courant de tester les valeurs aberrantes extrêmes et les observations influentes dans un ensemble de données consiste à calculer la distance de Cook pour chaque observation. S’il y a effectivement des valeurs aberrantes, vous pouvez choisir de (1) les supprimer, (2) les remplacer par une valeur telle que la moyenne ou la médiane, ou (3) simplement les conserver dans le modèle mais en prendre note lors du rapport de la régression. résultats.

Hypothèse n°5 : Il existe une relation linéaire entre les variables explicatives et le logit de la variable de réponse

La régression logistique suppose qu’il existe une relation linéaire entre chaque variable explicative et le logit de la variable de réponse. Rappelons que le logit est défini comme :

Logit(p) = log(p / (1-p)) où p est la probabilité d’un résultat positif.

Comment vérifier cette hypothèse : Le moyen le plus simple de voir si cette hypothèse est vérifiée est d’utiliser un test de Box-Tidwell.

Hypothèse n°6 : la taille de l’échantillon est suffisamment grande

La régression logistique suppose que la taille de l’échantillon de l’ensemble de données est suffisamment grande pour tirer des conclusions valides du modèle de régression logistique ajusté.

Comment vérifier cette hypothèse : En règle générale, vous devriez avoir un minimum de 10 cas avec le résultat le moins fréquent pour chaque variable explicative. Par exemple, si vous avez 3 variables explicatives et que la probabilité attendue du résultat le moins fréquent est de 0,20, alors vous devriez avoir une taille d’échantillon d’au moins (10*3) / 0,20 = 150 .

Hypothèses de régression logistique par rapport à la régression linéaire

Contrairement à la régression linéaire, la régression logistique ne nécessite pas :

  • Une relation linéaire entre la ou les variables explicatives et la variable de réponse.
  • Les résidus du modèle à distribuer normalement.
  • Les résidus doivent avoir une variance constante, également connue sous le nom d’homoscédasticité .

Connexes : Les quatre hypothèses de la régression linéaire

Ressources additionnelles

4 exemples d’utilisation de la régression logistique dans la vie réelle
Comment effectuer une régression logistique dans SPSS
Comment effectuer une régression logistique dans Excel
Comment effectuer une régression logistique dans Stata

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *