Hoe kwadratische regressie uit te voeren in excel
Regressie is een statistische techniek die we kunnen gebruiken om de relatie tussen een of meer voorspellende variabelen en een responsvariabele te verklaren. Het meest voorkomende type regressie is lineaire regressie , die we gebruiken als de relatie tussen de voorspellende variabele en de responsvariabele lineair is.
Met andere woorden: wanneer de voorspellende variabele toeneemt, heeft de responsvariabele de neiging ook toe te nemen. We kunnen bijvoorbeeld een lineair regressiemodel gebruiken om de relatie te beschrijven tussen het aantal gestudeerde uren (predictorvariabele) en het cijfer dat een student krijgt op een examen (responsvariabele).
Soms is de relatie tussen een voorspellende variabele en een responsvariabele echter niet-lineair . Een veelvoorkomend type niet-lineaire relatie is de kwadratische relatie , die er in een grafiek uit kan zien als een U of een omgekeerde U.
Dat wil zeggen dat naarmate de voorspellende variabele toeneemt, de responsvariabele de neiging heeft ook toe te nemen, maar na een bepaald punt begint de responsvariabele af te nemen naarmate de voorspellende variabele blijft toenemen.
We kunnen bijvoorbeeld een kwadratisch regressiemodel gebruiken om de relatie te beschrijven tussen het aantal gewerkte uren en het gerapporteerde geluksniveau van een persoon. Misschien dat hoe meer iemand werkt, des te meer voldaan hij of zij zich voelt, maar zodra hij een bepaalde drempel bereikt, leidt meer werk feitelijk tot stress en minder geluk. In dit geval zou een kwadratisch regressiemodel beter bij de gegevens passen dan een lineair regressiemodel.
Laten we een voorbeeld bekijken van het uitvoeren van kwadratische regressie in Excel.
Kwadratische regressie in Excel
Stel dat we gegevens hebben over het aantal gewerkte uren per week en het gerapporteerde geluksniveau (op een schaal van 0 tot 100) voor 16 verschillende mensen:
Laten we eerst een spreidingsdiagram maken om te zien of lineaire regressie een geschikt model is om in de gegevens te passen.
Markeer cellen A2:B17 . Klik vervolgens op het tabblad INVOEGEN langs het bovenste lint en klik vervolgens op Spreiding in het gebied Grafieken . Dit levert een spreidingsdiagram van de gegevens op:
Het is gemakkelijk in te zien dat de relatie tussen gewerkte uren en gerapporteerd geluk niet lineair is . In feite volgt het een „U“-vorm, waardoor het een perfecte kandidaat is voor kwadratische regressie .
Voordat we het kwadratische regressiemodel aan de gegevens aanpassen, moeten we een nieuwe kolom maken voor de gekwadrateerde waarden van onze voorspellende variabele.
Markeer eerst alle waarden in kolom B en sleep ze naar kolom C.
Typ vervolgens de formule =A2^2 in cel B2. Dit levert de waarde 36 op. Klik vervolgens op de rechteronderhoek van cel B2 en sleep de formule naar beneden om de resterende cellen in kolom B te vullen.
Vervolgens passen we het kwadratische regressiemodel aan.
Klik op DATA langs het bovenste lint en klik vervolgens uiterst rechts op de optie Gegevensanalyse . Als u deze optie niet ziet, moet u eerst de gratis Analysis ToolPak-software installeren .
Zodra u op Gegevensanalyse klikt, verschijnt er een vak. Klik op Regressie en klik vervolgens op OK .
Vul vervolgens de volgende waarden in het vak Regressie dat verschijnt. Klik vervolgens op OK .
De volgende resultaten worden weergegeven:
Zo interpreteert u de verschillende getallen in de uitvoer:
R-kwadraat: Ook bekend als de determinatiecoëfficiënt. Dit is het deel van de variantie in de responsvariabele dat kan worden verklaard door de voorspellende variabelen. In dit voorbeeld is het R-kwadraat 0,9092 , wat aangeeft dat 90,92% van de variantie in de gerapporteerde geluksniveaus kan worden verklaard door het aantal gewerkte uren en het aantal gewerkte uren ^2.
Standaardfout: De standaardfout van de regressie is de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. In dit voorbeeld wijken de waargenomen waarden gemiddeld 9.519 eenheden af van de regressielijn.
F-statistiek : De F-statistiek wordt berekend als regressie-MS/residuele MS. Deze statistiek geeft aan of het regressiemodel beter bij de gegevens past dan een model dat geen onafhankelijke variabelen bevat. In wezen wordt getest of het regressiemodel als geheel bruikbaar is. Als geen van de voorspellende variabelen in het model statistisch significant is, is de algehele F-statistiek doorgaans ook niet statistisch significant. In dit voorbeeld is de F-statistiek 65,09 en de overeenkomstige p-waarde <0,0001. Omdat deze p-waarde kleiner is dan 0,05 is het regressiemodel als geheel significant.
Regressiecoëfficiënten: De regressiecoëfficiënten in de laatste tabel geven ons de getallen die nodig zijn om de geschatte regressievergelijking te schrijven:
y hoed = b 0 + b 1 x 1 + b 2 x 1 2
In dit voorbeeld is de geschatte regressievergelijking:
opgegeven geluksniveau = -30,252 + 7,173 (gewerkte uren) -0,106 (gewerkte uren) 2
We kunnen deze vergelijking gebruiken om het verwachte geluksniveau van een individu te berekenen op basis van zijn gewerkte uren. Het verwachte geluksniveau van iemand die 30 uur per week werkt, is bijvoorbeeld:
gerapporteerd niveau van geluk = -30,252 + 7,173(30) -0,106(30) 2 = 88,649 .
Aanvullende bronnen
Hoe u een kwadratische trendlijn toevoegt in Excel
Een regressietabel lezen en interpreteren
Wat is een goede R-kwadraatwaarde?
De standaardfout van regressie begrijpen
Een eenvoudige gids voor het begrijpen van de F-test van de algehele significantie bij regressie