Wat is een genest model? (definitie & #038; voorbeeld)
Een genest model is eenvoudigweg een regressiemodel dat een subset van voorspellende variabelen in een ander regressiemodel bevat.
Stel dat we bijvoorbeeld het volgende regressiemodel hebben (laten we het Model A noemen) dat het aantal punten voorspelt dat een basketbalspeler scoort op basis van vier voorspellende variabelen:
Punten = β 0 + β 1 (minuten) + β 2 (hoogte) + β 3 (positie) + β 4 (schoten) + ε
Een voorbeeld van een genest model (laten we het Model B noemen) is het volgende model met slechts twee van de voorspellende variabelen uit Model A:
Punten = β 0 + β 1 (minuten) + β 2 (lengte) + ε
We zouden zeggen dat Model B is genest in Model A, omdat Model B een subset van de voorspellende variabelen uit Model A bevat.
Bedenk echter of we een ander model hadden (laten we het Model C noemen) met drie voorspellende variabelen:
Punten = β 0 + β 1 (minuten) + β 2 (lengte) + β 3 (vrije worpen geprobeerd)
We zouden niet zeggen dat Model C is genest in Model A, omdat elk model voorspellende variabelen bevat die het andere model niet bevat.
Het belang van geneste modellen
We gebruiken in de praktijk vaak geneste modellen als we willen weten of een model met een volledige set voorspellende variabelen beter in een dataset kan passen dan een model met een subset van die voorspellende variabelen.
In het bovenstaande scenario zouden we bijvoorbeeld een alomvattend model kunnen toepassen op basis van gespeelde minuten, lengte, positie en pogingen om het aantal door basketbalspelers gescoorde punten te voorspellen.
We kunnen echter vermoeden dat positie en schotpogingen de gescoorde punten niet erg goed voorspellen.
We zouden dus een genest model kunnen passen dat alleen de gespeelde minuten en de toonhoogte gebruikt om de gescoorde punten te voorspellen.
Vervolgens kunnen we de twee modellen vergelijken om te bepalen of er een statistisch significant verschil is.
Als er geen significant verschil is tussen de modellen, kunnen we positie- en schotpogingen als voorspellende variabelen verwijderen, omdat ze het model niet significant verbeteren.
Geneste modellen parseren
Om te bepalen of een genest model significant verschilt van een ‚volledig‘ model, voeren we doorgaans een waarschijnlijkheidsratiotest uit waarbij de volgende nul- en alternatieve hypothesen worden gebruikt:
H 0 : Het volledige model en het geneste model passen even goed bij de gegevens. U moet dus een genest model gebruiken .
H A : Het volledige model past aanzienlijk beter bij de gegevens dan het geneste model. U moet dus het volledige sjabloon gebruiken .
Een waarschijnlijkheidsratiotest levert een Chi-kwadraatteststatistiek en de bijbehorende p-waarde op.
Als de p-waarde van de test onder een bepaald significantieniveau ligt (bijvoorbeeld 0,05), kunnen we de nulhypothese verwerpen en concluderen dat het volledige model een significant betere fit biedt.
In de volgende tutorials wordt uitgelegd hoe u een waarschijnlijkheidsratiotest uitvoert met behulp van R en Python: