Wat is een spaarzaam model?
Een spaarzaam model is een model dat het gewenste niveau van aanpassing bereikt met zo min mogelijk verklarende variabelen .
De redenering achter dit type model komt voort uit het idee van Occams scheermes (ook wel het ‘parsimony-principe’ genoemd), dat zegt dat de eenvoudigste verklaring waarschijnlijk de juiste is.
Toegepast op statistieken zou een model dat weinig parameters heeft maar een bevredigend niveau van fit bereikt de voorkeur moeten krijgen boven een model dat een heleboel parameters heeft en slechts een iets hoger fitniveau bereikt.
Hiervoor zijn twee redenen:
1. Spaarzame modellen zijn gemakkelijker te interpreteren en te begrijpen. Modellen met minder parameters zijn gemakkelijker te begrijpen en uit te leggen.
2. Spaarzame modellen hebben doorgaans een groter voorspellend vermogen. Modellen met minder parameters presteren doorgaans beter wanneer ze worden toegepast op nieuwe gegevens.
Beschouw de volgende twee voorbeelden om deze ideeën te illustreren.
Voorbeeld 1: Parsimonious modellen = Gemakkelijke interpretatie
Stel dat we een model willen bouwen met behulp van een reeks vastgoedgerelateerde verklarende variabelen om vastgoedprijzen te voorspellen. Beschouw de volgende twee modellen met hun aangepaste R-kwadraat:
Model 1:
- Vergelijking: Huizenprijs = 8.830 + 81*(vierkante voet)
- Aangepaste R2 : 0,7734
Model 2:
- Vergelijking: Huisprijs = 8.921 + 77*(vierkante voet) + 7*(vierkante voet) 2 – 9*(leeftijd) + 600*(slaapkamers) + 38*(badkamers)
- Aangepaste R2 : 0,7823
Het eerste model heeft slechts één verklarende variabele en een aangepaste R2 van 0,7734, terwijl het tweede model vijf verklarende variabelen heeft met een iets hogere aangepaste R2 .
Gebaseerd op het principe van spaarzaamheid zouden we er de voorkeur aan geven het eerste model te gebruiken, omdat elk model ongeveer hetzelfde vermogen heeft om de variatie in huizenprijzen te verklaren, maar het eerste model veel gemakkelijker te begrijpen en uit te leggen is.
In het eerste model weten we bijvoorbeeld dat een toename van de vierkante meters van een huis met één eenheid gepaard gaat met een gemiddelde huizenprijsstijging van €81. Het is eenvoudig te begrijpen en uit te leggen.
In het tweede voorbeeld zijn de schattingen van de coëfficiënten echter veel moeilijker te interpreteren. Een extra kamer in het huis gaat bijvoorbeeld gepaard met een gemiddelde stijging van de huizenprijs van $ 600, ervan uitgaande dat de vierkante meters, de ouderdom van het huis en het aantal badkamers constant blijven. Het is veel moeilijker om te begrijpen en uit te leggen.
Voorbeeld 2: Parsimonious modellen = betere voorspellingen
Spaarzame modellen hebben ook de neiging om nauwkeurigere voorspellingen te doen over nieuwe datasets, omdat het minder waarschijnlijk is dat ze de originele dataset overtreffen .
Over het algemeen zullen modellen met meer parameters strakkere passingen en hogere R2 -waarden produceren dan modellen met minder parameters. Helaas kan het opnemen van te veel parameters in een model ertoe leiden dat het model zich aanpast aan de ruis (of „willekeurigheid“) van de gegevens, in plaats van aan de werkelijke onderliggende relatie tussen de verklarende variabelen. en responsvariabelen.
Dit betekent dat een zeer complex model met veel parameters waarschijnlijk slecht zal presteren op een nieuwe dataset die het nog nooit eerder heeft gezien, vergeleken met een eenvoudiger model met minder parameters.
Hoe een spaarzaam model te kiezen
Er zou een hele cursus gewijd kunnen zijn aan het onderwerp modelselectie , maar in essentie betekent het kiezen van een spaarzaam model het kiezen van een model dat het beste presteert volgens een bepaalde maatstaf.
Veelgebruikte statistieken die modellen evalueren op basis van hun prestaties op een trainingsdataset en hun aantal parameters zijn onder meer:
1. Akaike-informatiecriterium (AIC)
De AIC van een model kan als volgt worden berekend:
AIC = -2/n * LL + 2 * k/n
Goud:
- n: aantal observaties in de trainingsdataset.
- LL: logwaarschijnlijkheid van het model op de trainingsdataset.
- k: Aantal parameters in het model.
Met deze methode kunt u de AIC van elk model berekenen en vervolgens het model met de laagste AIC-waarde als beste model selecteren.
Deze benadering neigt ertoe de voorkeur te geven aan complexere modellen in vergelijking met de volgende methode, BIC.
2. Bayesiaans informatiecriterium (BIC)
De BIC van een model kan als volgt worden berekend:
BIC = -2 * LL + log(n) * k
Goud:
- n: aantal observaties in de trainingsdataset.
- log: de natuurlijke logaritme (basis e)
- LL: logwaarschijnlijkheid van het model op de trainingsdataset.
- k: Aantal parameters in het model.
Met deze methode kunt u de BIC van elk model berekenen en vervolgens het model met de laagste BIC-waarde als beste model selecteren.
Deze benadering geeft de voorkeur aan modellen met minder parameters in vergelijking met de AIC-methode.
3. Minimale beschrijvingslengte (MDL)
MDL is een manier om modellen uit de informatietheorie te evalueren. Het kan als volgt worden berekend:
MDL = L(h) + L(D | h)
Goud:
- h: Het model.
- D: Voorspellingen gemaakt door het model.
- L(h): Aantal bits dat nodig is om het model weer te geven.
- L(D | h): aantal bits dat nodig is om de voorspellingen van het model op de trainingsgegevens weer te geven.
Met deze methode kunt u de MDL van elk model berekenen en vervolgens het model met de laagste MDL-waarde als beste model selecteren.
Afhankelijk van het soort probleem waaraan u werkt, kan een van deze methoden – AIC, BIC of MDL – de voorkeur hebben boven de andere bij het selecteren van een spaarzaam model.