Comment créer et interpréter une courbe ROC dans SPSS
La régression logistique est une méthode statistique que nous utilisons pour ajuster un modèle de régression lorsque la variable de réponse est binaire. Pour évaluer dans quelle mesure un modèle de régression logistique s’adapte à un ensemble de données, nous pouvons examiner les deux métriques suivantes :
- Sensibilité : probabilité que le modèle prédise un résultat positif pour une observation alors que le résultat est effectivement positif.
- Spécificité : la probabilité que le modèle prédise un résultat négatif pour une observation alors que le résultat est effectivement négatif.
Un moyen simple de visualiser ces deux mesures consiste à créer une courbe ROC , qui est un graphique qui affiche la sensibilité et la spécificité d’un modèle de régression logistique.
Ce didacticiel explique comment créer et interpréter une courbe ROC dans SPSS.
Exemple : courbe ROC dans SPSS
Supposons que nous ayons l’ensemble de données suivant qui montre si un joueur de basket-ball a été recruté ou non dans la NBA (0 = non, 1 = oui) ainsi que sa moyenne de points par match à l’université :
Pour créer une courbe ROC pour cet ensemble de données, cliquez sur l’onglet Analyser , puis Classifier , puis Courbe ROC :
Dans la nouvelle fenêtre qui apparaît, faites glisser le brouillon de variable dans la zone intitulée Variable d’état. Définissez la valeur de la variable d’état sur 1 . (C’est la valeur qui indique qu’un joueur a été repêché). Faites glisser les points variables dans la zone intitulée Test Variable.
Cochez les cases à côté de Avec ligne de référence diagonale et Coordonnées des points de la courbe ROC . Cliquez ensuite sur OK .
Voici comment interpréter le résultat :
Résumé du traitement des dossiers :
Ce tableau affiche le nombre total de cas positifs et négatifs dans l’ensemble de données. Dans cet exemple, 8 joueurs ont été repêchés (résultat positif) et 6 joueurs n’ont pas été repêchés (résultat négatif) :
Courbe ROC :
La courbe ROC (Receiver Operating Characteristic) est un tracé des valeurs de sensibilité par rapport à la spécificité 1 lorsque la valeur du seuil passe de 0 à 1 :
Un modèle avec une sensibilité et une spécificité élevées aura une courbe ROC qui épouse le coin supérieur gauche du tracé. Un modèle avec une faible sensibilité et une faible spécificité aura une courbe proche de la diagonale de 45 degrés.
Nous pouvons voir que la courbe ROC (la ligne bleue) dans cet exemple épouse le coin supérieur gauche de l’intrigue, ce qui indique que le modèle fait un bon travail pour prédire si les joueurs seront repêchés ou non, en fonction de leur moyenne de points par match. .
Aire sous la courbe :
L’aire sous la courbe nous donne une idée de la capacité du modèle à faire la distinction entre les résultats positifs et négatifs. L’AUC peut varier de 0 à 1. Plus l’AUC est élevée, meilleur est le modèle pour classer correctement les résultats.
Nous pouvons voir que l’AUC pour ce modèle de régression logistique particulier est de 0,948 , ce qui est extrêmement élevé. Cela indique que le modèle fait un bon travail pour prédire si un joueur sera repêché ou non.
Coordonnées de la courbe :
Ce dernier tableau affiche la sensibilité et la spécificité 1 de la courbe ROC pour différents seuils.
Par exemple:
Si nous permettons que le seuil soit de 8,50 , cela signifie que nous prévoyons que tout joueur qui marque moins de 8,50 points par match ne sera pas repêché, et que tout joueur qui marque plus de 8,50 points par match sera repêché.
En utilisant cela comme seuil, notre sensibilité serait de 100 % (puisque chaque joueur ayant marqué moins de 8,50 points par match n’a en effet pas été repêché) et notre spécificité 1 serait de 66,7 % (puisque 8 joueurs sur 12 ayant marqué plus de 8,50 points par match ont été repêchés).
Le tableau ci-dessus nous permet de voir la sensibilité et la spécificité 1 pour chaque seuil potentiel.