Hoe de c-statistiek van een logistisch regressiemodel te interpreteren
Deze tutorial biedt een eenvoudige uitleg over het interpreteren van de C-statistiek van een logistisch regressiemodel.
Wat is logistische regressie?
Logistische regressie is een statistische methode die we gebruiken om een regressiemodel te fitten wanneer de responsvariabele binair is. Hier zijn enkele voorbeelden van het gebruik van logistische regressie:
- We willen weten hoe lichaamsbeweging, voeding en gewicht de kans op een hartaanval beïnvloeden. De responsvariabele is een hartaanval en deze heeft twee mogelijke uitkomsten: er komt een hartaanval voor of deze komt niet voor.
- We willen weten hoe de GPA-, ACT-score en het aantal gevolgde AP-cursussen de kans beïnvloeden om te worden toegelaten tot een bepaalde universiteit. De responsvariabele is acceptatie en heeft twee mogelijke uitkomsten: geaccepteerd of niet geaccepteerd.
- We willen weten of het aantal woorden en de titel van de e-mail van invloed zijn op de kans dat een e-mail spam is. De responsvariabele is spam en heeft twee mogelijke uitkomsten: spam of geen spam.
Merk op dat voorspellende variabelen numeriek of categorisch kunnen zijn; Wat belangrijk is, is dat de responsvariabele binair is. Wanneer dit het geval is, is logistieke regressie een geschikt model om de relatie tussen de voorspellende variabelen en de responsvariabele te verklaren.
Hoe de geschiktheid van een logistisch regressiemodel te beoordelen
Zodra we een logistisch regressiemodel aan een dataset hebben aangepast, zijn we vaak geïnteresseerd in hoe goed het model bij de gegevens past. We zijn specifiek geïnteresseerd in het vermogen van het model om positieve en negatieve uitkomsten nauwkeurig te voorspellen.
Gevoeligheid verwijst naar de waarschijnlijkheid dat het model een positieve uitkomst voor een waarneming voorspelt, terwijl de uitkomst daadwerkelijk positief is.
Specificiteit verwijst naar de waarschijnlijkheid dat het model een negatieve uitkomst voorspelt voor een waarneming terwijl de uitkomst feitelijk negatief is.
Een logistisch regressiemodel is perfect voor het classificeren van waarnemingen als het 100% sensitiviteit en specificiteit heeft, maar in de praktijk gebeurt dit vrijwel nooit.
Zodra we het logistische regressiemodel hebben aangepast, kan het worden gebruikt om de waarschijnlijkheid te berekenen dat een bepaalde waarneming een positief resultaat zal hebben, op basis van de waarden van de voorspellende variabelen.
Om te bepalen of een waarneming als positief moet worden geclassificeerd, kunnen we een zodanige drempel kiezen dat waarnemingen met een aangepaste waarschijnlijkheid boven de drempel als positief worden geclassificeerd en alle waarnemingen met een aangepaste waarschijnlijkheid onder de drempel als negatief worden geclassificeerd. .
Stel dat we bijvoorbeeld een drempelwaarde van 0,5 kiezen. Dit betekent dat elke waarneming met een aangepaste waarschijnlijkheid groter dan 0,5 een positief resultaat zal hebben, terwijl elke waarneming met een aangepaste waarschijnlijkheid kleiner dan of gelijk aan 0,5 een negatief resultaat zal hebben.
De ROC-curve uitzetten
Een van de meest gebruikelijke manieren om de gevoeligheid versus specificiteit van een model te visualiseren is door een Receiver Operating Characteristic ( ROC ) -curve uit te zetten, wat een grafiek is van gevoeligheidswaarden versus specificiteit 1 als de waarde van de drempelwaarde. het punt gaat van 0 naar 1:
Een model met hoge gevoeligheid en specificiteit heeft een ROC-curve die in de linkerbovenhoek van de grafiek past. Een model met een lage gevoeligheid en lage specificiteit zal een curve hebben die dichtbij de diagonaal van 45 graden ligt.
De AUC (area under curve) geeft ons een idee van het vermogen van het model om onderscheid te maken tussen positieve en negatieve resultaten. De AUC kan variëren van 0 tot 1. Hoe hoger de AUC, hoe beter het model de resultaten correct classificeert.
Dit betekent dat een model met een ROC-curve die de linkerbovenhoek van de curve omhelst, een groot gebied onder de curve zou hebben en daarom een model zou zijn dat de resultaten goed classificeert. Omgekeerd zou een model met een ROC-curve die de diagonaal van 45 graden omhelst een laag oppervlak onder de curve hebben en daarom een model zijn dat de resultaten niet goed classificeert.
De C-statistiek begrijpen
De c-statistiek , ook wel de concordantiestatistiek genoemd, is gelijk aan de AUC (area under curve) en heeft de volgende interpretaties:
- Een waarde kleiner dan 0,5 duidt op een slecht model.
- Een waarde van 0,5 geeft aan dat het model niet beter is in het classificeren van resultaten dan toeval.
- Hoe dichter de waarde bij 1 ligt, hoe beter het model de resultaten correct kan classificeren.
- Een waarde van 1 betekent dat het model perfect is voor het classificeren van resultaten.
Een C-statistiek geeft ons dus een idee van hoe effectief een model is in het correct classificeren van resultaten.
In een klinische setting is het mogelijk om de C-statistiek te berekenen door alle mogelijke paren van individuen te nemen, dat wil zeggen een individu dat een positief resultaat heeft ervaren en een individu dat een negatief resultaat heeft ervaren. Vervolgens kan de c-statistiek worden berekend als het aandeel van dergelijke paren waarin het individu dat een positieve uitkomst heeft ervaren een hogere voorspelde kans had om de uitkomst te ervaren dan het individu dat de positieve uitkomst niet heeft ervaren.
Stel dat we bijvoorbeeld een logistisch regressiemodel passen met behulp van voorspellende variabelen zoals leeftijd en bloeddruk om de waarschijnlijkheid van een hartaanval te voorspellen.
Om de c-statistiek van het model te vinden, konden we alle mogelijke individuenparen identificeren, bestaande uit een individu dat een hartaanval kreeg en een individu dat geen hartaanval kreeg. Vervolgens kan de c-statistiek worden berekend als het aandeel van deze paren waarbij het individu dat de hartaanval kreeg feitelijk een hogere voorspelde kans had om een hartaanval te krijgen vergeleken met het individu dat de hartaanval niet kreeg. hartaanval.
Conclusie
In dit artikel leerden we het volgende:
- Logistische regressie is een statistische methode die we gebruiken om een regressiemodel te fitten wanneer de responsvariabele binair is.
- Om de goede pasvorm van een logistisch regressiemodel te beoordelen, kunnen we kijken naar de gevoeligheid en specificiteit , die ons vertellen hoe goed het model in staat is de resultaten correct te classificeren.
- Om de gevoeligheid en specificiteit te visualiseren, kunnen we een ROC-curve maken.
- De AUC (area under the curve) geeft aan hoe goed het model de resultaten correct kan classificeren. Wanneer een ROC-curve de linkerbovenhoek van de grafiek omhelst, geeft dit aan dat het model de resultaten met succes classificeert.
- De c-statistiek is gelijk aan de AUC (oppervlakte onder de curve) en kan ook worden berekend door alle mogelijke paren van individuen te nemen, dat wil zeggen een individu dat een positief resultaat heeft ervaren en een individu dat een negatief resultaat heeft ervaren. Vervolgens is de c-statistiek het aandeel van dergelijke paren waarin het individu dat een positieve uitkomst ervoer een hogere voorspelde kans had om de uitkomst te ervaren dan het individu dat de positieve uitkomst niet ervoer.
- Hoe dichter een C-statistiek bij 1 ligt, hoe correcter een model de resultaten kan classificeren.