Comment créer et interpréter une courbe ROC dans Stata



La régression logistique est une méthode statistique que nous utilisons pour ajuster un modèle de régression lorsque la variable de réponse est binaire. Pour évaluer dans quelle mesure un modèle de régression logistique s’adapte à un ensemble de données, nous pouvons examiner les deux métriques suivantes :

  • Sensibilité : la probabilité que le modèle prédise un résultat positif pour une observation alors que le résultat est effectivement positif.
  • Spécificité : la probabilité que le modèle prédise un résultat négatif pour une observation alors que le résultat est effectivement négatif.

Un moyen simple de visualiser ces deux mesures consiste à créer une courbe ROC , qui est un graphique qui affiche la sensibilité et la spécificité d’un modèle de régression logistique.

Ce tutoriel explique comment créer et interpréter une courbe ROC dans Stata.

Exemple : courbe ROC dans Stata

Pour cet exemple, nous utiliserons un ensemble de données appelé lbw , qui contient les variables suivantes pour 189 mères :

  • faible – que le bébé ait ou non un faible poids à la naissance. 1 = oui, 0 = non.
  • âge – âge de la mère.
  • fumée – si la mère a fumé ou non pendant la grossesse. 1 = oui, 0 = non.

Nous adapterons un modèle de régression logistique aux données en utilisant l’âge et le tabagisme comme variables explicatives et le faible poids à la naissance comme variable de réponse. Ensuite, nous créerons une courbe ROC pour analyser dans quelle mesure le modèle s’adapte aux données.

Étape 1 : Chargez et affichez les données.

Chargez les données à l’aide de la commande suivante :

utilisez https://www.stata-press.com/data/r13/lbw

Obtenez une compréhension rapide de l’ensemble de données à l’aide de la commande suivante :

résumer

Ensemble de données sur l'insuffisance pondérale à la naissance dans Stata

Il y a 11 variables différentes dans l’ensemble de données, mais les trois seules qui nous intéressent sont le faible niveau, l’âge et le tabagisme.

Étape 2 : Ajustez le modèle de régression logistique.

Utilisez la commande suivante pour ajuster le modèle de régression logistique :

logit fumée de faible âge

Sortie de régression logistique dans Stata

Étape 3 : Créez la courbe ROC.

Nous pouvons créer la courbe ROC pour le modèle en utilisant la commande suivante :

lroc

Courbe ROC dans Stata

Étape 4 : Interprétez la courbe ROC.

Lorsque nous ajustons un modèle de régression logistique, il peut être utilisé pour calculer la probabilité qu’une observation donnée ait un résultat positif, sur la base des valeurs des variables prédictives.

Pour déterminer si une observation doit être classée comme positive, nous pouvons choisir un seuil tel que les observations avec une probabilité ajustée supérieure au seuil soient classées comme positives et toutes les observations avec une probabilité ajustée inférieure au seuil soient classées comme négatives. .

Par exemple, supposons que nous choisissions un seuil de 0,5. Cela signifie que toute observation avec une probabilité ajustée supérieure à 0,5 aura un résultat positif, tandis que toute observation avec une probabilité ajustée inférieure ou égale à 0,5 aura un résultat négatif.

La courbe ROC nous montre les valeurs de sensibilité par rapport à la spécificité 1 lorsque la valeur du seuil passe de 0 à 1. Un modèle avec une sensibilité et une spécificité élevées aura une courbe ROC qui épouse le coin supérieur gauche du parcelle. Un modèle avec une faible sensibilité et une faible spécificité aura une courbe proche de la diagonale de 45 degrés.

L’ AUC (aire sous courbe) nous donne une idée de la capacité du modèle à faire la distinction entre les résultats positifs et négatifs. L’AUC peut varier de 0 à 1. Plus l’AUC est élevée, meilleur est le modèle pour classer correctement les résultats. Dans notre exemple, nous pouvons voir que l’AUC est de 0,6111 .

Nous pouvons utiliser l’AUC pour comparer les performances de deux modèles ou plus. Le modèle avec l’AUC la plus élevée est celui qui fonctionne le mieux.

Ressources additionnelles

Comment effectuer une régression logistique dans Stata
Comment interpréter la courbe ROC et l’AUC d’un modèle de régression logistique

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *