Hoe logistische regressie uit te voeren in stata
Logistische regressie is een methode die we gebruiken om een regressiemodel te fitten wanneer de responsvariabele binair is. Hier zijn enkele voorbeelden van het gebruik van logistische regressie:
- We willen weten hoe lichaamsbeweging, voeding en gewicht de kans op een hartaanval beïnvloeden. De responsvariabele is een hartaanval en deze heeft twee mogelijke uitkomsten: er komt een hartaanval voor of deze komt niet voor.
- We willen weten hoe de GPA-, ACT-score en het aantal gevolgde AP-cursussen de kans beïnvloeden om te worden toegelaten tot een bepaalde universiteit. De responsvariabele is acceptatie en heeft twee mogelijke uitkomsten: geaccepteerd of niet geaccepteerd.
- We willen weten of het aantal woorden en de titel van de e-mail van invloed zijn op de kans dat een e-mail spam is. De responsvariabele is spam en heeft twee mogelijke uitkomsten: spam of geen spam.
In deze tutorial wordt uitgelegd hoe u logistieke regressie uitvoert in Stata.
Voorbeeld: logistieke regressie in Stata
Stel dat we willen begrijpen of de leeftijd en het rookgedrag van een moeder invloed hebben op de kans op het krijgen van een baby met een laag geboortegewicht.
Om dit te onderzoeken kunnen we logistische regressie uitvoeren met leeftijd en roken (ja of nee) als verklarende variabelen en een laag geboortegewicht (ja of nee) als responsvariabele. Omdat de responsvariabele binair is – er zijn slechts twee mogelijke uitkomsten – moet logistische regressie worden gebruikt.
Voer de volgende stappen in Stata uit om logistische regressie uit te voeren met behulp van de dataset genaamd lbw , die gegevens over 189 verschillende moeders bevat.
Stap 1: Gegevens laden.
Laad de gegevens door het volgende in het opdrachtvenster te typen:
gebruik https://www.stata-press.com/data/r13/lbw
Stap 2: Krijg een gegevensoverzicht.
Krijg snel inzicht in de gegevens waarmee u werkt door het volgende in het opdrachtvak te typen:
samenvatten
We kunnen zien dat er elf verschillende variabelen in de dataset zitten, maar de enige drie waarin we geïnteresseerd zijn zijn:
- laag – of de baby al dan niet een laag geboortegewicht heeft. 1 = ja, 0 = nee.
- leeftijd – leeftijd van de moeder.
- roken – ongeacht of de moeder tijdens de zwangerschap rookte of niet. 1 = ja, 0 = nee.
Stap 3: Voer logistische regressie uit.
Typ het volgende in het opdrachtvenster om een logistische regressie uit te voeren met leeftijd en rook als verklarende variabelen en laag als responsvariabele.
rooklogit op lage leeftijd
Zo interpreteert u de meest interessante cijfers in het resultaat:
Coef (leeftijd): -.0497792. Als we de rook constant houden, gaat elk jaar van leeftijdstoename gepaard met een exp(-0,0497792) = 0,951 toename van de kans dat een baby een laag geboortegewicht heeft. Als dit getal minder dan 1 is, betekent dit dat een toename van de leeftijd feitelijk gepaard gaat met een verminderde kans op het krijgen van een baby met een laag geboortegewicht.
Stel bijvoorbeeld dat moeder A en moeder B allebei roken. Als moeder A één jaar ouder is dan moeder B, dan is de kans dat moeder A een baby met een laag geboortegewicht krijgt slechts 95,1% van de kans dat moeder B een baby met een laag geboortegewicht krijgt. de geboorte.
P>|z| (leeftijd): 0,119. Dit is de p-waarde die is gekoppeld aan de teststatistiek voor leeftijd . Aangezien deze waarde niet minder dan 0,05 bedraagt, is leeftijd geen statistisch significante voorspeller van een laag geboortegewicht.
Odds-ratio (rook): 0,6918486. Als we de leeftijd constant houden, heeft een moeder die tijdens de zwangerschap rookt een grotere kans exp(.6918486) = 1,997 om een baby met een laag geboortegewicht te krijgen dan een moeder die niet rookt tijdens de zwangerschap.
Stel bijvoorbeeld dat moeder A en moeder B allebei 30 jaar oud zijn. Als moeder A rookt tijdens de zwangerschap en moeder B niet, dan is de kans dat moeder A een baby met een laag geboortegewicht krijgt 99,7% groter dan de kans dat moeder B een baby met een laag geboortegewicht krijgt.
P>|z| (rook): 0,032. Dit is de p-waarde die hoort bij de teststatistiek voor rook . Omdat deze waarde minder dan 0,05 bedraagt, is roken een statistisch significante voorspeller van een laag geboortegewicht.
Stap 4: Rapporteer de resultaten.
Ten slotte willen we de resultaten van onze logistische regressie rapporteren. Hier is een voorbeeld van hoe u dit kunt doen:
Er werd logistieke regressie uitgevoerd om te bepalen of de leeftijd en het rookgedrag van een moeder de kans op een kind met een laag geboortegewicht beïnvloeden. Voor de analyse werd een steekproef van 189 moeders gebruikt.
Uit de resultaten bleek dat er een statistisch significante relatie was tussen roken en de kans op een laag geboortegewicht (z = 2,15, p = 0,032), terwijl er geen statistisch significante relatie was tussen leeftijd en de kans op een laag geboortegewicht (z = -1,56). , p = 0,032). 119).