Comment interpréter la statistique C d’un modèle de régression logistique



Ce didacticiel fournit une explication simple sur la façon d’interpréter la statistique C d’un modèle de régression logistique.

Qu’est-ce que la régression logistique ?

La régression logistique est une méthode statistique que nous utilisons pour ajuster un modèle de régression lorsque la variable de réponse est binaire. Voici quelques exemples d’utilisation de la régression logistique :

  • Nous voulons savoir quel est l’impact de l’exercice, de l’alimentation et du poids sur la probabilité d’avoir une crise cardiaque. La variable de réponse est la crise cardiaque et elle a deux résultats potentiels : une crise cardiaque se produit ou ne se produit pas.
  • Nous voulons savoir comment le GPA, le score ACT et le nombre de cours AP suivis ont un impact sur la probabilité d’être accepté dans une université particulière. La variable de réponse est l’acceptation et elle a deux résultats potentiels : accepté ou non accepté.
  • Nous voulons savoir si le nombre de mots et le titre de l’e-mail ont un impact sur la probabilité qu’un e-mail soit du spam. La variable de réponse est spam et elle a deux résultats potentiels : spam ou non spam.

Notez que les variables prédictives peuvent être numériques ou catégorielles ; ce qui est important, c’est que la variable de réponse soit binaire. Lorsque tel est le cas, la régression logistique est un modèle approprié à utiliser pour expliquer la relation entre les variables prédictives et la variable de réponse.

Comment évaluer l’adéquation d’un modèle de régression logistique

Une fois que nous avons adapté un modèle de régression logistique à un ensemble de données, nous nous intéressons souvent à la manière dont le modèle s’adapte aux données. Plus précisément, nous nous intéressons à la capacité du modèle à prédire avec précision les résultats positifs et négatifs.

La sensibilité fait référence à la probabilité que le modèle prédise un résultat positif pour une observation alors que le résultat est effectivement positif.

La spécificité fait référence à la probabilité que le modèle prédise un résultat négatif pour une observation alors que le résultat est effectivement négatif.

Un modèle de régression logistique est parfait pour classer les observations s’il a une sensibilité et une spécificité de 100 %, mais en pratique, cela ne se produit presque jamais.

Une fois que nous avons ajusté le modèle de régression logistique, il peut être utilisé pour calculer la probabilité qu’une observation donnée ait un résultat positif, sur la base des valeurs des variables prédictives.

Pour déterminer si une observation doit être classée comme positive, nous pouvons choisir un seuil tel que les observations avec une probabilité ajustée supérieure au seuil soient classées comme positives et toutes les observations avec une probabilité ajustée inférieure au seuil soient classées comme négatives. .

Par exemple, supposons que nous choisissions un seuil de 0,5. Cela signifie que toute observation avec une probabilité ajustée supérieure à 0,5 aura un résultat positif, tandis que toute observation avec une probabilité ajustée inférieure ou égale à 0,5 aura un résultat négatif.

Tracer la courbe ROC

L’un des moyens les plus courants de visualiser la sensibilité par rapport à la spécificité d’un modèle consiste à tracer une courbe ROC (Receiver Operating Characteristic), qui est un tracé des valeurs de sensibilité par rapport à la spécificité 1 comme valeur du seuil. le point passe de 0 à 1 :

Un modèle avec une sensibilité et une spécificité élevées aura une courbe ROC qui épouse le coin supérieur gauche du tracé. Un modèle avec une faible sensibilité et une faible spécificité aura une courbe proche de la diagonale de 45 degrés.

L’ AUC (aire sous courbe) nous donne une idée de la capacité du modèle à faire la distinction entre les résultats positifs et négatifs. L’AUC peut varier de 0 à 1. Plus l’AUC est élevée, meilleur est le modèle pour classer correctement les résultats.

Cela signifie qu’un modèle avec une courbe ROC qui épouse le coin supérieur gauche du tracé aurait une aire sous la courbe élevée et serait donc un modèle qui fait un bon travail de classification correcte des résultats. À l’inverse, un modèle avec une courbe ROC qui épouse la diagonale de 45 degrés aurait une faible aire sous la courbe et serait donc un modèle qui ne fait pas un bon travail de classification des résultats.

Comprendre la statistique C

La statistique c , également connue sous le nom de statistique de concordance , est égale à l’AUC (aire sous courbe) et a les interprétations suivantes :

  • Une valeur inférieure à 0,5 indique un modèle médiocre.
  • Une valeur de 0,5 indique que le modèle ne permet pas mieux de classer les résultats que le hasard.
  • Plus la valeur est proche de 1, plus le modèle est capable de classer correctement les résultats.
  • Une valeur de 1 signifie que le modèle est parfait pour classer les résultats.

Ainsi, une statistique C nous donne une idée de l’efficacité d’un modèle à classer correctement les résultats.

En milieu clinique, il est possible de calculer la statistique C en prenant toutes les paires possibles d’individus, soit un individu ayant connu un résultat positif et un individu ayant connu un résultat négatif. Ensuite, la statistique c peut être calculée comme la proportion de telles paires dans lesquelles l’individu qui a connu un résultat positif avait une probabilité prédite plus élevée de connaître le résultat que l’individu qui n’a pas connu le résultat positif.

Par exemple, supposons que nous ajustions un modèle de régression logistique utilisant des variables prédictives telles que l’âge et la pression artérielle pour prédire la probabilité d’une crise cardiaque.

Pour trouver la statistique c du modèle, nous avons pu identifier toutes les paires possibles d’individus, composées d’un individu ayant subi une crise cardiaque et d’un individu n’ayant pas subi de crise cardiaque. Ensuite, la statistique c peut être calculée comme la proportion de ces paires dans lesquelles l’individu qui a subi la crise cardiaque avait effectivement une probabilité prédite plus élevée de subir une crise cardiaque par rapport à l’individu qui n’a pas subi de crise cardiaque.

Conclusion

Dans cet article, nous avons appris ce qui suit :

  • La régression logistique est une méthode statistique que nous utilisons pour ajuster un modèle de régression lorsque la variable de réponse est binaire.
  • Pour évaluer la qualité de l’ajustement d’un modèle de régression logistique, nous pouvons examiner la sensibilité et la spécificité , qui nous indiquent dans quelle mesure le modèle est capable de classer correctement les résultats.
  • Pour visualiser la sensibilité et la spécificité, nous pouvons créer une courbe ROC .
  • L’ AUC (aire sous la courbe) indique dans quelle mesure le modèle est capable de classer correctement les résultats. Lorsqu’une courbe ROC épouse le coin supérieur gauche du tracé, cela indique que le modèle parvient à classer correctement les résultats.
  • La statistique c est égale à l’AUC (aire sous la courbe) et peut également être calculée en prenant toutes les paires possibles d’individus, soit un individu ayant connu un résultat positif et un individu ayant connu un résultat négatif. Ensuite, la statistique c est la proportion de telles paires dans lesquelles l’individu qui a connu un résultat positif avait une probabilité prédite plus élevée de connaître le résultat que l’individu qui n’a pas connu le résultat positif.
  • Plus une statistique C est proche de 1, plus un modèle est capable de classer correctement les résultats.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *