So führen sie eine multiple lineare regression in excel durch


Die multiple lineare Regression ist eine Methode, mit der wir die Beziehung zwischen zwei oder mehr erklärenden Variablen und einer Antwortvariablen verstehen können.

In diesem Tutorial wird erläutert, wie Sie in Excel eine multiple lineare Regression durchführen.

Hinweis: Wenn Sie nur eine erklärende Variable haben, sollten Sie stattdessen eine einfache lineare Regression durchführen.

Beispiel: Multiple lineare Regression in Excel

Angenommen, wir möchten wissen, ob die Anzahl der Lernstunden und die Anzahl der abgelegten Vorbereitungsprüfungen die Note beeinflussen, die ein Student bei einer bestimmten Hochschulaufnahmeprüfung erhält.

Um diesen Zusammenhang zu untersuchen, können wir eine multiple lineare Regression durchführen, indem wir die untersuchten Stunden und vorbereitenden Prüfungen als erklärende Variablen und die Prüfungsergebnisse als Antwortvariable verwenden.

Führen Sie die folgenden Schritte in Excel aus, um eine multiple lineare Regression durchzuführen.

Schritt 1: Geben Sie die Daten ein.

Geben Sie für 20 Studierende folgende Daten zur Anzahl der Lernstunden, abgelegten Vorbereitungsprüfungen und erhaltenen Prüfungsergebnisse ein:

Rohdaten für multiple lineare Regression in Excel

Schritt 2: Führen Sie eine multiple lineare Regression durch.

Gehen Sie im oberen Menüband von Excel zur Registerkarte „Daten“ und klicken Sie auf „Datenanalyse“ . Wenn diese Option nicht angezeigt wird, müssen Sie zunächst die kostenlose Analysis ToolPak-Software installieren .

Datenanalyseoption in Excel

Sobald Sie auf Datenanalyse klicken, erscheint ein neues Fenster. Wählen Sie Regression und klicken Sie auf OK.

Beispiel einer multiplen linearen Regression in Excel

Füllen Sie für Eingabe-Y-Bereich das Wertearray für die Antwortvariable aus. Füllen Sie für Input X Range das Wertearray für die beiden erklärenden Variablen aus. Aktivieren Sie das Kontrollkästchen neben Beschriftungen , um Excel darüber zu informieren, dass wir die Variablennamen in die Eingabebereiche aufgenommen haben. Wählen Sie für Ausgabebereich eine Zelle aus, in der die Regressionsausgabe angezeigt werden soll. Klicken Sie dann auf OK .

Multiple lineare Regression in Excel

Es erscheint automatisch folgende Ausgabe:

Ausgabe mehrerer linearer Regressionen in Excel

Schritt 3: Interpretieren Sie das Ergebnis.

So interpretieren Sie die relevantesten Zahlen im Ergebnis:

R-Quadrat: 0,734 . Dies wird als Bestimmtheitsmaß bezeichnet. Es ist der Anteil der Varianz der Antwortvariablen, der durch die erklärenden Variablen erklärt werden kann. In diesem Beispiel lassen sich 73,4 % der Abweichungen bei den Prüfungsergebnissen durch die Anzahl der gelernten Stunden und die Anzahl der abgelegten Vorbereitungsprüfungen erklären.

Standardfehler: 5,366 . Dies ist der durchschnittliche Abstand zwischen den beobachteten Werten und der Regressionsgeraden. In diesem Beispiel weichen die beobachteten Werte im Durchschnitt um 5.366 Einheiten von der Regressionsgeraden ab.

F: 23:46 Uhr Dies ist die Gesamt-F-Statistik für das Regressionsmodell, berechnet als Regressions-MS/Rest-MS.

Bedeutung F: 0,0000 . Dies ist der p-Wert, der der gesamten F-Statistik zugeordnet ist. Dies sagt uns, ob das Regressionsmodell als Ganzes statistisch signifikant ist oder nicht. Mit anderen Worten sagt es uns, ob die beiden erklärenden Variablen zusammen einen statistisch signifikanten Zusammenhang mit der Antwortvariablen haben. In diesem Fall liegt der p-Wert unter 0,05, was darauf hindeutet, dass die erklärenden Variablen , gelernte Stunden und absolvierte Vorbereitungsprüfungen zusammen, einen statistisch signifikanten Zusammenhang mit dem Prüfungsergebnis haben.

P-Werte. Einzelne p-Werte sagen uns, ob jede erklärende Variable statistisch signifikant ist oder nicht. Wir können sehen, dass die Anzahl der gelernten Stunden statistisch signifikant ist (p = 0,00), während die Anzahl der absolvierten Vorbereitungsprüfungen (p = 0,52) mit α = 0,05 statistisch nicht signifikant ist. Da frühere Vorbereitungsprüfungen statistisch nicht signifikant sind, entscheiden wir uns möglicherweise, sie aus dem Modell zu entfernen.

Koeffizienten: Die Koeffizienten jeder erklärenden Variablen geben Auskunft über die erwartete durchschnittliche Änderung der Antwortvariablen unter der Annahme, dass die andere erklärende Variable konstant bleibt. Beispielsweise würde sich die durchschnittliche Prüfungspunktzahl für jede weitere Lernstunde voraussichtlich um 5,56 erhöhen, vorausgesetzt, dass die Anzahl der absolvierten Übungsprüfungen konstant bleibt.

Anders ausgedrückt: Wenn Schüler A und Schüler B beide die gleiche Anzahl an Vorbereitungsprüfungen absolvieren, Schüler A aber eine Stunde länger lernt, dann sollte Schüler A 5,56 Punkte mehr Punkte erzielen als Schüler B.

Wir interpretieren den Intercept-Koeffizienten so, dass die erwartete Prüfungspunktzahl für einen Studenten, der keine Stunden studiert und keine Vorbereitungsprüfungen ablegt, 67,67 beträgt.

Geschätzte Regressionsgleichung: Wir können die Koeffizienten aus der Modellausgabe verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:

Prüfungsergebnis = 67,67 + 5,56*(Stunden) – 0,60*(Vorbereitungsprüfungen)

Wir können diese geschätzte Regressionsgleichung verwenden, um die erwartete Prüfungspunktzahl für einen Studenten zu berechnen, basierend auf der Anzahl der Lernstunden und der Anzahl der von ihm abgelegten Übungsprüfungen. Ein Student, der beispielsweise drei Stunden lernt und eine Vorbereitungsprüfung ablegt, sollte eine Note von 83,75 erhalten:

Prüfungsergebnis = 67,67 + 5,56*(3) – 0,60*(1) = 83,75

Bedenken Sie, dass wir uns möglicherweise dazu entschließen, sie zu entfernen, da die vergangenen Vorbereitungsprüfungen statistisch nicht signifikant waren (p=0,52), da sie keine Verbesserung für das Gesamtmodell bringen. In diesem Fall könnten wir eine einfache lineare Regression durchführen und dabei nur die untersuchten Stunden als erklärende Variable verwenden.

Die Ergebnisse dieser einfachen linearen Regressionsanalyse finden Sie hier .

Zusätzliche Ressourcen

Nachdem Sie die multiple lineare Regression durchgeführt haben, möchten Sie möglicherweise mehrere Annahmen überprüfen, darunter:

1.Testen auf Multikollinearität mit VIF .

2. Testen Sie die Heterodskedastizität mithilfe eines Breusch-Pagan-Tests .

3. Testen Sie die Normalität mithilfe eines QQ-Diagramms .

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert