Hoe regressie-uitvoer in excel te interpreteren
Meervoudige lineaire regressie is een van de meest gebruikte technieken in alle statistieken.
In deze zelfstudie wordt uitgelegd hoe u elke waarde in de uitvoer van een meervoudig lineair regressiemodel in Excel interpreteert.
Voorbeeld: Regressie-uitvoer interpreteren in Excel
Stel dat we willen weten of het aantal uren dat wordt gestudeerd en het aantal afgelegde voorbereidende examens van invloed zijn op het cijfer dat een student krijgt voor een bepaald toelatingsexamen voor de universiteit.
Om deze relatie te onderzoeken, kunnen we een meervoudige lineaire regressie uitvoeren met behulp van bestudeerde uren en voorbereidende examens als voorspellende variabelen en examenscores als responsvariabele.
De volgende schermafbeelding toont de regressie-uitvoer van dit model in Excel:
Zo interpreteert u de grootste waarden in de uitvoer:
Meerdere R: 0,857 . Dit vertegenwoordigt de meervoudige correlatie tussen de responsvariabele en de twee voorspellende variabelen.
R Kwadraat: 0,734 . Dit wordt de determinatiecoëfficiënt genoemd. Het is het deel van de variantie van de responsvariabele dat kan worden verklaard door de verklarende variabelen. In dit voorbeeld wordt 73,4% van de variatie in examenscores verklaard door het aantal gestudeerde uren en het aantal afgelegde voorbereidende examens.
Aangepast R-vierkant: 0,703 . Dit vertegenwoordigt de R Square-waarde, aangepast voor het aantal voorspellende variabelen in het model . Deze waarde zal ook lager zijn dan de R Square-waarde en zal modellen benadelen die te veel voorspellende variabelen in het model gebruiken.
Standaardfout: 5.366 . Dit is de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. In dit voorbeeld wijken de waargenomen waarden gemiddeld 5.366 eenheden af van de regressielijn.
Opmerkingen: 20 . Totale steekproefomvang van de dataset die is gebruikt om het regressiemodel te produceren.
F: 23:46 uur Dit is de algemene F-statistiek voor het regressiemodel, berekend als regressie-MS/residuele MS.
Betekenis F: 0,0000 . Dit is de p-waarde die is gekoppeld aan de algehele F-statistiek. Dit vertelt ons of het regressiemodel als geheel statistisch significant is of niet.
In dit geval is de p-waarde kleiner dan 0,05, wat aangeeft dat de verklarende variabelen , bestudeerde uren en afgelegde voorbereidende examens samen een statistisch significant verband hebben met het examenresultaat .
Coëfficiënten: De coëfficiënten van elke verklarende variabele vertellen ons de verwachte gemiddelde verandering in de responsvariabele, ervan uitgaande dat de andere verklarende variabele constant blijft.
Voor elk extra uur dat aan studeren wordt besteed, zou de gemiddelde examenscore naar verwachting bijvoorbeeld met 5,56 stijgen, ervan uitgaande dat de afgelegde oefenexamens constant blijven.
De interceptcoëfficiënt interpreteren we zo dat de verwachte examenscore voor een student die geen uren studeert en geen voorbereidende examens aflegt 67,67 bedraagt.
P-waarden. Individuele p-waarden vertellen ons of elke verklarende variabele statistisch significant is of niet. We kunnen zien dat het aantal gestudeerde uren statistisch significant is (p = 0,00), terwijl afgelegde voorbereidende examens (p = 0,52) niet statistisch significant zijn bij α = 0,05.
Hoe de geschatte regressievergelijking te schrijven
We kunnen de coëfficiënten uit de modeluitvoer gebruiken om de volgende geschatte regressievergelijking te maken:
Examenscore = 67,67 + 5,56*(uren) – 0,60*(voorbereidende examens)
Met deze geschatte regressievergelijking kunnen we de verwachte examenscore voor een student berekenen, op basis van het aantal uren studie en het aantal oefenexamens dat hij/zij aflegt.
Een student die bijvoorbeeld drie uur studeert en een voorbereidend examen aflegt, zou een cijfer van 83,75 moeten krijgen:
Examenscore = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Houd er rekening mee dat, aangezien de eerdere voorbereidende examens niet statistisch significant waren (p=0,52), we kunnen besluiten deze te verwijderen, omdat ze geen enkele verbetering van het algehele model opleveren.
In dit geval zouden we een eenvoudige lineaire regressie kunnen uitvoeren met alleen de bestudeerde uren als verklarende variabele.
Aanvullende bronnen
Inleiding tot eenvoudige lineaire regressie
Inleiding tot meervoudige lineaire regressie