Regressionsgleichung

Von Dr. Benjamin Anderson August 2, 2023 Statistiken Keine Kommentare

In diesem Artikel wird erklärt, was eine Regressionsgleichung ist und wofür sie verwendet wird. Ebenso erfahren Sie, wie Sie eine Regressionsgleichung finden, eine gelöste Aufgabe und schließlich einen Online-Rechner zur Berechnung der Regressionsgleichung für einen beliebigen Datensatz.

Was ist die Regressionsgleichung?

Die Regressionsgleichung ist die Gleichung, die am besten zu einem Punktdiagramm passt, d. h. die Regressionsgleichung ist die beste Näherung für einen Datensatz.

Die Regressionsgleichung hat die Form y=β ₀ +β ₁ x, wobei β ₀ die Konstante der Gleichung und β ₁ die Steigung der Gleichung ist.

$y=\beta_0+\beta_1x$

Wenn Sie sich die Regressionsgleichung ansehen, handelt es sich um die Gleichung einer Geraden. Dies bedeutet, dass die Beziehung zwischen der unabhängigen Variablen X und der abhängigen Variablen Y als lineare Beziehung modelliert wird, da die Linie eine lineare Beziehung darstellt.

Die Regressionsgleichung ermöglicht es uns also, die unabhängige Variable und die abhängige Variable eines Datensatzes mathematisch in Beziehung zu setzen. Obwohl die Regressionsgleichung im Allgemeinen nicht in der Lage ist, den Wert jeder Beobachtung genau zu bestimmen, wird sie dennoch verwendet, um eine Annäherung an ihren Wert zu erhalten.

Wie Sie im vorherigen Diagramm sehen können, hilft uns die Regressionsgleichung, den Trend eines Datensatzes zu erkennen und zu erkennen, welche Art von Beziehung zwischen der unabhängigen Variablen und der abhängigen Variablen besteht.

So berechnen Sie die Regressionsgleichung

Die Formeln zur Berechnung der Koeffizienten der einfachen linearen Regressionsgleichung lauten wie folgt:

$\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}$

Gold:

$\beta_0$

ist die Konstante der Regressionsgleichung.
$\beta_1$

ist die Steigung der Regressionsgleichung.
$x_i$

ist der Wert der unabhängigen Variablen X der Daten i.
$y_i$

ist der Wert der abhängigen Variablen Y der Daten i.
$\overline{x}$

ist der Durchschnitt der Werte der unabhängigen Variablen
$\overline{y}$

ist der Durchschnitt der Werte der abhängigen Variablen Y.

Beispiel für die Berechnung der Regressionsgleichung

Nach der Ablegung einer Statistikprüfung wurden fünf Studenten gefragt, wie viele Stunden sie für die Prüfung aufgewendet hatten. Die Daten sind in der folgenden Tabelle aufgeführt. Berechnen Sie die Regressionsgleichung aus den gesammelten statistischen Daten, um die Lernstunden linear mit der erzielten Note in Beziehung zu setzen. Bestimmen Sie als Nächstes, welche Note ein Schüler erhält, der 8 Stunden gelernt hat.

Um die Regressionsgleichung für die Beispieldaten zu finden, müssen wir die Koeffizienten b ₀ und b ₁ der Gleichung bestimmen und dazu müssen wir die im obigen Abschnitt gezeigten Formeln verwenden.

Um jedoch die Formeln für die lineare Regressionsgleichung anwenden zu können, müssen wir zunächst den Mittelwert der unabhängigen Variablen und den Mittelwert der abhängigen Variablen berechnen:

$\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}$

Nachdem wir nun die Mittelwerte der Variablen kennen, berechnen wir den Koeffizienten β ₁ des Modells mithilfe der entsprechenden Formel:

$\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] \beta_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]\beta_1=0,4412\end{array}$

Abschließend berechnen wir den Koeffizienten β ₀ des Modells mithilfe der entsprechenden Formel:

$\begin{array}{l}\beta_0=\overline{y}-\beta_1\overline{x}\\[3ex]\beta_0=6-0,4412\cdot 9 \\[3ex]\beta_0=2,0294\end{array}$

Kurz gesagt lautet die Gleichung der linearen Regressionslinie des Problems wie folgt:

$y=2,0294+0,4412x$

Unten sehen Sie die grafische Darstellung der Beispieldaten zusammen mit der einfachen linearen Regressionsmodellgleichung:

Beispiel einer linearen Regressionslinie

Sobald wir die Regressionsgleichung berechnet haben, setzen Sie diesen Wert einfach in die resultierende Regressionsgleichung ein, um die Note vorherzusagen, die ein Schüler erhalten wird, der 8 Stunden lang gelernt hat:

$y=2,0294+0,4412\cdot 8=5,56$

Nach dem durchgeführten linearen Regressionsmodell erhält ein Student, der acht Stunden lang lernt, in der Prüfung eine Punktzahl von 5,56.

Regressionsgleichungsrechner

Geben Sie Beispieldaten in den Rechner unten ein, um Ihre Regressionsgleichung zu berechnen. Sie müssen die Datenpaare trennen, sodass im ersten Feld nur die Werte der unabhängigen Variablen X und im zweiten Feld nur die Werte der abhängigen Variablen Y stehen.

Die Daten müssen durch ein Leerzeichen getrennt und mit dem Punkt als Dezimaltrennzeichen eingegeben werden.

Multiple lineare Regressionsgleichung

Wir haben gerade gesehen, was die einfache lineare Regressionsgleichung ist. Das Regressionsmodell kann jedoch auch ein multiples lineares Regressionsmodell sein, das zwei oder mehr unabhängige Variablen umfasst. Somit ermöglicht die multiple lineare Regression die lineare Verknüpfung mehrerer erklärender Variablen mit einer Antwortvariablen.

Die Gleichung für das multiple lineare Regressionsmodell lautet:

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

Gold:

$y$

ist die abhängige Variable.
$x_i$

ist die unabhängige Variable i.
$\beta_0$

ist die Konstante der multiplen linearen Regressionsgleichung.
$\beta_i$

ist der mit der Variablen verbundene Regressionskoeffizient

$x_i$

.
$\bm{\varepsilon}$

ist der Fehler oder das Residuum, also die Differenz zwischen dem beobachteten Wert und dem vom Modell geschätzten Wert.
$m$

ist die Gesamtzahl der Variablen im Modell.

Wenn wir also eine Stichprobe mit insgesamt haben

$n$

Beobachtungen können wir das multiple lineare Regressionsmodell in Matrixform darstellen:

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

Der obige Matrixausdruck kann umgeschrieben werden, indem jeder Matrix ein Buchstabe zugewiesen wird:

$Y=X\beta+\varepsilon$

Durch Anwendung des Kriteriums der kleinsten Quadrate können wir also zu der Formel zur Schätzung der Koeffizienten einer multiplen linearen Regressionsgleichung gelangen:

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

Allerdings ist die Anwendung dieser Formel sehr mühsam und zeitaufwändig, weshalb in der Praxis die Verwendung von Computersoftware (wie Minitab oder Excel) empfohlen wird, mit der sich ein multiples Regressionsmodell wesentlich schneller erstellen lässt.

➤ Siehe: Was ist multiple lineare Regression?

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen