Hoe u meerdere lineaire regressies uitvoert in excel
Meervoudige lineaire regressie is een methode die we kunnen gebruiken om de relatie tussen twee of meer verklarende variabelen en eenresponsvariabele te begrijpen.
In deze zelfstudie wordt uitgelegd hoe u meervoudige lineaire regressie uitvoert in Excel.
Opmerking: als u slechts één verklarende variabele heeft, moet u in plaats daarvan een eenvoudige lineaire regressie uitvoeren.
Voorbeeld: meervoudige lineaire regressie in Excel
Stel dat we willen weten of het aantal uren dat wordt gestudeerd en het aantal afgelegde voorbereidende examens van invloed zijn op het cijfer dat een student krijgt voor een bepaald toelatingsexamen voor de universiteit.
Om deze relatie te onderzoeken, kunnen we een meervoudige lineaire regressie uitvoeren met behulp van bestudeerde uren en voorbereidende examens als verklarende variabelen en examenresultaten als responsvariabele.
Voer de volgende stappen in Excel uit om meervoudige lineaire regressie uit te voeren.
Stap 1: Voer de gegevens in.
Vul voor het aantal gestudeerde uren, afgelegde voorbereidende examens en ontvangen examenresultaten van 20 studenten de volgende gegevens in:
Stap 2: Voer meerdere lineaire regressie uit.
Ga op het bovenste lint van Excel naar het tabblad Gegevens en klik op Gegevensanalyse . Als u deze optie niet ziet, moet u eerst de gratis Analysis ToolPak-software installeren .
Zodra u op Data-analyse klikt, verschijnt een nieuw venster. Selecteer Regressie en klik op OK.
Vul bij Invoer Y- bereik de reeks waarden voor de responsvariabele in. Vul voor Input X Range de reeks waarden in voor de twee verklarende variabelen. Vink het vakje naast Labels aan om Excel te laten weten dat we de namen van de variabelen in het invoerbereik hebben opgenomen. Selecteer bij Uitvoerbereik een cel waarin u de regressie-uitvoer wilt laten verschijnen. Klik vervolgens op OK .
De volgende uitvoer verschijnt automatisch:
Stap 3: Interpreteer het resultaat.
Zo interpreteert u de meest relevante cijfers in het resultaat:
R Kwadraat: 0,734 . Dit wordt de determinatiecoëfficiënt genoemd. Het is het deel van de variantie van de responsvariabele dat kan worden verklaard door de verklarende variabelen. In dit voorbeeld wordt 73,4% van de variatie in examenscores verklaard door het aantal gestudeerde uren en het aantal afgelegde voorbereidende examens.
Standaardfout: 5.366 . Dit is de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. In dit voorbeeld wijken de waargenomen waarden gemiddeld 5.366 eenheden af van de regressielijn.
F: 23:46 uur Dit is de algemene F-statistiek voor het regressiemodel, berekend als regressie-MS/residuele MS.
Betekenis F: 0,0000 . Dit is de p-waarde die is gekoppeld aan de algehele F-statistiek. Dit vertelt ons of het regressiemodel als geheel statistisch significant is of niet. Met andere woorden, het vertelt ons of de twee verklarende variabelen samen een statistisch significant verband hebben met de responsvariabele. In dit geval is de p-waarde kleiner dan 0,05, wat aangeeft dat de verklarende variabelen , bestudeerde uren en afgelegde voorbereidende examens samen een statistisch significant verband hebben met het examenresultaat .
P-waarden. Individuele p-waarden vertellen ons of elke verklarende variabele statistisch significant is of niet. We kunnen zien dat het aantal gestudeerde uren statistisch significant is (p = 0,00), terwijl afgelegde voorbereidende examens (p = 0,52) niet statistisch significant zijn bij α = 0,05. Omdat voorbereidende examens uit het verleden niet statistisch significant zijn, kunnen we uiteindelijk besluiten ze uit het model te verwijderen.
Coëfficiënten: De coëfficiënten van elke verklarende variabele vertellen ons de verwachte gemiddelde verandering in de responsvariabele, ervan uitgaande dat de andere verklarende variabele constant blijft. Voor elk extra uur dat aan studeren wordt besteed, zou de gemiddelde examenscore naar verwachting bijvoorbeeld met 5,56 stijgen, ervan uitgaande dat de afgelegde oefenexamens constant blijven.
Je kunt het op een andere manier bekijken: als student A en student B allebei hetzelfde aantal voorbereidende examens afleggen, maar student A een uur langer studeert, dan zou student A 5,56 punten hoger moeten scoren dan die van student B.
De interceptcoëfficiënt interpreteren we zo dat de verwachte examenscore voor een student die geen uren studeert en geen voorbereidende examens aflegt 67,67 bedraagt.
Geschatte regressievergelijking: We kunnen de coëfficiënten uit de modeluitvoer gebruiken om de volgende geschatte regressievergelijking te maken:
examenscore = 67,67 + 5,56*(uren) – 0,60*(voorbereidende examens)
Met deze geschatte regressievergelijking kunnen we de verwachte examenscore voor een student berekenen, op basis van het aantal uren studie en het aantal oefenexamens dat hij/zij aflegt. Een student die bijvoorbeeld drie uur studeert en een voorbereidend examen aflegt, zou een cijfer van 83,75 moeten krijgen:
examenscore = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Houd er rekening mee dat, aangezien de eerdere voorbereidende examens niet statistisch significant waren (p=0,52), we kunnen besluiten deze te verwijderen, omdat ze geen enkele verbetering van het algehele model opleveren. In dit geval zouden we een eenvoudige lineaire regressie kunnen uitvoeren met alleen de bestudeerde uren als verklarende variabele.
De resultaten van deze eenvoudige lineaire regressieanalyse vindt u hier .
Aanvullende bronnen
Nadat u meerdere lineaire regressies heeft uitgevoerd, wilt u wellicht verschillende aannames controleren, waaronder:
1. Testen op multicollineariteit met behulp van VIF .
2. Test op heterodscedasticiteit met behulp van een Breusch-Pagan-test .