Gestandaardiseerde en niet-gestandaardiseerde regressiecoëfficiënten
Meervoudige lineaire regressie is een nuttige manier om de relatie tussen twee of meer voorspellende variabelen en een responsvariabele te kwantificeren.
Wanneer we meervoudige lineaire regressie uitvoeren, zijn de resulterende regressiecoëfficiënten doorgaans niet gestandaardiseerd , wat betekent dat ze de onbewerkte gegevens gebruiken om de best passende lijn te vinden.
Wanneer voorspellende variabelen echter op radicaal verschillende schalen worden gemeten, kan het nuttig zijn om meervoudige lineaire regressie uit te voeren met behulp van gestandaardiseerde gegevens, wat resulteert in gestandaardiseerde coëfficiënten.
Laten we een eenvoudig voorbeeld doornemen om u te helpen dit idee te begrijpen.
Voorbeeld: gestandaardiseerde en niet-gestandaardiseerde regressiecoëfficiënten
Stel dat we de volgende dataset hebben met informatie over de leeftijd, vierkante meters en verkoopprijs van 12 woningen:
Stel dat we vervolgens een meervoudige lineaire regressie uitvoeren, waarbij we leeftijd en vierkante meters gebruiken als voorspellende variabelen en prijs als responsvariabele.
Hier is het resultaat van de regressie :
De regressiecoëfficiënten in deze tabel zijn niet gestandaardiseerd , wat betekent dat ze de ruwe gegevens hebben gebruikt om in dit regressiemodel te passen. Op het eerste gezicht lijkt het erop dat leeftijd een veel groter effect heeft op de vastgoedprijs, aangezien de coëfficiënt in de regressietabel -409.833 bedraagt, vergeleken met slechts 100.866 voor de voorspellende variabele vierkante meters .
De standaardfout is echter veel groter voor leeftijd dan voor vierkante meters. Daarom is de overeenkomstige p-waarde feitelijk groot voor leeftijd (p = 0,520) en klein voor vierkante meters (p = 0,000).
De reden voor de extreme verschillen in de regressiecoëfficiënten is te wijten aan de extreme verschillen in de schalen voor de twee variabelen:
- Waarden voor de leeftijd variëren van 4 tot 44 jaar.
- Vierkante lengtewaarden variëren van 1.200 tot 2.800.
Stel dat we in plaats daarvan de originele onbewerkte gegevens normaliseren door elke originele gegevenswaarde om te zetten in een z-score:
Als we vervolgens een meervoudige lineaire regressie uitvoeren met behulp van de gestandaardiseerde gegevens, verkrijgen we het volgende regressieresultaat:
De regressiecoëfficiënten in deze tabel zijn gestandaardiseerd , wat betekent dat er gestandaardiseerde gegevens zijn gebruikt om in dit regressiemodel te passen. De manier om de coëfficiënten in de tabel te interpreteren is als volgt:
- Een stijging van één standaardafwijking in leeftijd gaat gepaard met een daling van de huizenprijs met 0,092 standaardafwijking, ervan uitgaande dat het aantal vierkante meters constant blijft.
- Een toename van één standaardafwijking in vierkante meters gaat gepaard met een stijging van de huizenprijs met 0,885 standaardafwijking, ervan uitgaande dat de leeftijd constant blijft.
We kunnen meteen zien dat vierkante meters een veel groter effect hebben op de vastgoedprijzen dan leeftijd. Merk ook op dat de p-waarden voor elke voorspellende variabele exact hetzelfde zijn als die in het vorige regressiemodel.
Gerelateerd: Z-scores berekenen in Excel
Wanneer gestandaardiseerde of niet-gestandaardiseerde regressiecoëfficiënten gebruiken?
Zowel gestandaardiseerde als niet-gestandaardiseerde regressiecoëfficiënten kunnen afhankelijk van de situatie nuttig zijn. Speciaal:
Niet-gestandaardiseerde regressiecoëfficiënten zijn handig als u het effect wilt interpreteren dat een verandering van één eenheid in een voorspellende variabele heeft op een responsvariabele. In het bovenstaande voorbeeld kunnen we de niet-gestandaardiseerde regressiecoëfficiënten van de eerste regressie gebruiken om de exacte relatie tussen de voorspellende variabelen en de responsvariabele te begrijpen:
- Een stijging van de leeftijd met één eenheid ging gepaard met een gemiddelde daling van de huizenprijs met $ 409 , ervan uitgaande dat het aantal vierkante meters constant bleef. Deze coëfficiënt bleek niet statistisch significant (p=0,520).
- Een stijging van één eenheid in vierkante meters ging gepaard met een gemiddelde stijging van $100 in de huizenprijzen, ervan uitgaande dat de leeftijd constant bleef. Deze coëfficiënt bleek ook statistisch significant te zijn (p=0,000).
Gestandaardiseerde regressiecoëfficiënten zijn handig als u het effect van verschillende voorspellende variabelen op een responsvariabele wilt vergelijken. Omdat elke variabele gestandaardiseerd is, kunt u zien welke variabele het grootste effect heeft op de responsvariabele.
Het nadeel van gestandaardiseerde regressiecoëfficiënten is dat ze iets moeilijker te interpreteren zijn. Het is bijvoorbeeld gemakkelijker om het effect van een stijging van één leeftijdseenheid op de prijs van onroerend goed te begrijpen dan het effect van een stijging van één standaardafwijking op de prijs van onroerend goed.
Aanvullende bronnen
Een regressietabel lezen en interpreteren
Hoe regressiecoëfficiënten te interpreteren
Hoe u meerdere lineaire regressies uitvoert in Excel