De 6 hypothesen van logistische regressie (met voorbeelden)
Logistische regressie is een methode die we kunnen gebruiken om een regressiemodel te fitten wanneer de responsvariabele binair is.
Voordat een model aan een dataset wordt aangepast, wordt bij logistieke regressie uitgegaan van de volgende aannames:
Aanname #1: de responsvariabele is binair
Logistische regressie gaat ervan uit dat de responsvariabele slechts twee mogelijke uitkomsten heeft. Hier zijn enkele voorbeelden:
- Ja of nee
- Man of vrouw
- Slagen of mislukken
- Geschreven of ongeschreven
- Kwaadaardig of goedaardig
Hoe u deze aanname kunt controleren: Tel eenvoudigweg het aantal unieke uitkomsten dat voorkomt in de responsvariabele. Als er meer dan twee mogelijke uitkomsten zijn, moet u in plaats daarvan een ordinale regressie uitvoeren.
Hypothese #2: de waarnemingen zijn onafhankelijk
Logistische regressie gaat ervan uit dat de waarnemingen in de dataset onafhankelijk van elkaar zijn. Dat wil zeggen dat waarnemingen niet afkomstig mogen zijn van herhaalde metingen van hetzelfde individu en op geen enkele manier met elkaar in verband mogen worden gebracht.
Hoe deze hypothese te testen: De eenvoudigste manier om deze hypothese te testen is door een grafiek van residuen tegen de tijd te maken (dat wil zeggen de volgorde van waarnemingen) en te observeren of er al dan niet sprake is van een willekeurige trend. Als er geen willekeurig patroon is, kan deze aanname worden geschonden.
Hypothese #3: er is geen multicollineariteit tussen de verklarende variabelen
Logistische regressie gaat ervan uit dat er geen ernstige multicollineariteit bestaat tussen de verklarende variabelen .
Multicollineariteit treedt op wanneer twee of meer verklarende variabelen sterk met elkaar gecorreleerd zijn, zodat ze geen unieke of onafhankelijke informatie verschaffen in het regressiemodel. Als de mate van correlatie tussen variabelen hoog genoeg is, kan dit problemen veroorzaken bij het aanpassen en interpreteren van het model.
Stel dat u bijvoorbeeld een logistische regressie wilt uitvoeren met maximale verticale sprong als responsvariabele en de volgende variabelen als verklarende variabelen:
- Grootte van de speler
- Grootte van de speler
- Uren besteed aan oefenen per dag
In dit geval zijn lengte en schoenmaat waarschijnlijk sterk gecorreleerd, aangezien langere mensen doorgaans grotere schoenmaten hebben. Dit betekent dat multicollineariteit waarschijnlijk een probleem zal zijn als we deze twee variabelen in de regressie gebruiken.
Hoe deze aanname te controleren: De meest gebruikelijke manier om multicollineariteit te detecteren is het gebruik van de variantie-inflatiefactor (VIF), die de correlatie en sterkte van de correlatie tussen voorspellende variabelen in een regressiemodel meet. Bekijk deze tutorial voor een gedetailleerde uitleg over het berekenen en interpreteren van VIF-waarden.
Veronderstelling #4: Er zijn geen extreme uitschieters
Logistische regressie gaat ervan uit dat er geen extreme uitschieters of invloedrijke waarnemingen in de dataset voorkomen.
Hoe deze aanname te controleren: De meest gebruikelijke manier om te testen op extreme uitschieters en invloedrijke waarnemingen in een dataset is het berekenen van de afstand van Cook voor elke waarneming. Als er inderdaad uitschieters zijn, kunt u ervoor kiezen om (1) deze te verwijderen, (2) ze te vervangen door een waarde zoals het gemiddelde of de mediaan, of (3) ze gewoon in het model te laten staan, maar er nota van te nemen bij het rapporteren van de regressie. . resultaten.
Hypothese #5: Er is een lineair verband tussen de verklarende variabelen en de logit van de responsvariabele
Logistische regressie gaat ervan uit dat er een lineair verband bestaat tussen elke verklarende variabele en de logit van de responsvariabele. Bedenk dat de logit wordt gedefinieerd als:
Logit(p) = log(p / (1-p)) waarbij p de waarschijnlijkheid van een positief resultaat is.
Hoe deze hypothese te testen: De eenvoudigste manier om te zien of deze hypothese waar is, is door een Box-Tidwell-test te gebruiken.
Aanname #6: De steekproefomvang is groot genoeg
Logistische regressie gaat ervan uit dat de steekproefomvang van de dataset groot genoeg is om geldige conclusies te trekken uit het aangepaste logistieke regressiemodel.
Hoe u deze hypothese kunt controleren: Als vuistregel geldt dat u voor elke verklarende variabele minimaal 10 gevallen met de minst frequente uitkomst moet hebben. Als u bijvoorbeeld drie verklarende variabelen heeft en de verwachte waarschijnlijkheid van de minst voorkomende uitkomst is 0,20, dan moet u een steekproefomvang hebben van minimaal (10*3) / 0,20 = 150 .
Aannames van logistieke regressie vs. Lineaire regressie
In tegenstelling tot lineaire regressie vereist logistische regressie niet:
- Een lineair verband tussen de verklarende variabele(n) en de responsvariabele.
- De residuen van het model moeten normaal verdeeld zijn.
- Residuen moeten een constante variantie hebben, ook bekend als homoscedasticiteit .
Gerelateerd: De vier aannames van lineaire regressie
Aanvullende bronnen
4 voorbeelden van het gebruik van logistieke regressie in het echte leven
Hoe logistische regressie uit te voeren in SPSS
Logistieke regressie uitvoeren in Excel
Hoe logistische regressie uit te voeren in Stata