Qu’est-ce qui est considéré comme un bon score d’ASC ?



La régression logistique est une méthode que nous utilisons pour ajuster un modèle de régression lorsque la variable de réponse est binaire.

Pour évaluer dans quelle mesure un modèle de régression logistique s’adapte à un ensemble de données, nous pouvons examiner les deux métriques suivantes :

  • Sensibilité : probabilité que le modèle prédise un résultat positif pour une observation alors que le résultat est effectivement positif. C’est ce qu’on appelle également le « taux de vrais positifs ».
  • Spécificité : la probabilité que le modèle prédise un résultat négatif pour une observation alors que le résultat est effectivement négatif. C’est ce qu’on appelle également le « vrai taux négatif ».

Une façon de visualiser ces deux mesures consiste à créer une courbe ROC , qui signifie courbe « caractéristique de fonctionnement du récepteur ».

Il s’agit d’un graphique qui affiche la sensibilité le long de l’axe des y et (1 – spécificité) le long de l’axe des x.

Une façon de quantifier l’efficacité du modèle de régression logistique dans la classification des données consiste à calculer l’AUC , qui signifie « aire sous la courbe ».

La valeur de l’AUC varie de 0 à 1. Un modèle qui a une AUC de 1 est capable de classer parfaitement les observations en classes, tandis qu’un modèle qui a une AUC de 0,5 ne fait pas mieux qu’un modèle qui effectue des suppositions aléatoires.

Qu’est-ce qu’un bon score AUC ?

Une question que les étudiants se posent souvent à propos de l’AUC est :

Qu’est-ce qu’un bon score d’AUC ?

La réponse:

Il n’existe pas de seuil spécifique pour ce qui est considéré comme un bon score d’AUC.

Évidemment, plus le score AUC est élevé, plus le modèle est capable de classer les observations en classes.

Et nous savons qu’un modèle avec un score AUC de 0,5 n’est pas meilleur qu’un modèle qui effectue des suppositions aléatoires.

Cependant, il n’existe pas de chiffre magique permettant de déterminer si un score AUC est bon ou mauvais.

Si nous devons qualifier certains scores de bons ou de mauvais, nous pouvons faire référence à la règle empirique suivante de Hosmer et Lemeshow dans Applied Logistic Regression (p. 177) :

  • 0,5 = Aucune discrimination
  • 0,5-0,7 = Mauvaise discrimination
  • 0,7-0,8 = Discrimination acceptable
  • 0,8-0,9 = Excellente discrimination
  • >0,9 = Discrimination exceptionnelle

Selon ces normes, un modèle avec un score AUC inférieur à 0,7 serait considéré comme médiocre et tout modèle supérieur serait considéré comme acceptable ou meilleur.

Un « bon » score d’AUC varie selon l’industrie

Il est important de garder à l’esprit que ce qui est considéré comme un « bon » score d’AUC varie selon le secteur.

Par exemple, dans le domaine médical, les chercheurs recherchent souvent des scores d’ASC supérieurs à 0,95, car le coût d’une erreur est très élevé.

Par exemple, si nous disposons d’un modèle de régression logistique qui prédit si un patient développera ou non un cancer, le prix à payer en cas d’erreur (dire à tort à un patient qu’il n’a pas de cancer alors qu’il en a un) est si élevé que nous voulons un modèle qui soit correctement presque à chaque fois.

À l’inverse, dans d’autres secteurs comme le marketing, un score AUC inférieur peut être acceptable pour un modèle.

Par exemple, si nous avons un modèle qui prédit si un client sera ou non un client régulier, le prix à payer pour se tromper ne change pas la vie, donc un modèle avec une AUC aussi basse que 0,6 pourrait toujours être utile.

Comparez les scores AUC au modèle actuel

Dans des contextes réels, nous comparons souvent les scores AUC des nouveaux modèles de régression logistique avec le score AUC du modèle actuel utilisé.

Par exemple, supposons qu’une entreprise utilise un modèle de régression logistique pour prédire si les clients seront ou non des clients réguliers.

Si le modèle actuel a un score d’AUC de 0,6 et que vous développez un nouveau modèle qui a une AUC de 0,65, alors le nouveau modèle que vous avez développé sera préférable même s’il n’offre qu’une légère amélioration et serait considéré comme « médiocre » par les normes de Hosmer et Lemeshow.

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur la façon de créer et d’interpréter les courbes ROC et les scores AUC :

Comment interpréter une courbe ROC (avec exemples)
Comment créer une courbe ROC en Python
Comment créer une courbe ROC dans R
Comment calculer l’AUC dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *