Regressionsanalyse

In diesem Artikel wird erläutert, was eine Regressionsanalyse ist und wofür sie in der Statistik verwendet wird. Darüber hinaus können Sie die verschiedenen Arten der Regressionsanalyse sehen.

Was ist eine Regressionsanalyse?

In der Statistik ist die Regressionsanalyse ein Prozess, bei dem die Beziehung zwischen zwei oder mehr Variablen untersucht wird. Genauer gesagt beinhaltet die Regressionsanalyse die Berechnung einer Gleichung, die die Variablen in der Studie mathematisch in Beziehung setzt.

Das in einer Regressionsanalyse erstellte Modell wird als Regressionsmodell bezeichnet, während die Gleichung, die die untersuchten Variablen in Beziehung setzt, als Regressionsgleichung bezeichnet wird.

Wenn Sie beispielsweise die Beziehung zwischen der Inflation eines Landes und seinem BIP untersuchen möchten, können Sie eine Regressionsanalyse durchführen, um die Beziehung zwischen den beiden Variablen zu analysieren. In diesem Fall wäre die aus der Regressionsanalyse erhaltene Gleichung eine Regressionsgerade.

Regressionsanalyse

Eine Regressionsanalyse besteht also darin, eine Stichprobe von Daten zu sammeln und aus den gesammelten Daten eine Gleichung zu berechnen, die es ermöglicht, die untersuchten Variablen mathematisch in Beziehung zu setzen.

Bei Regressionsanalysen ist es wichtig, zwischen den beiden Arten von Variablen zu unterscheiden, die in das Regressionsmodell einbezogen werden können:

  • Abhängige Variable (oder Antwortvariable) : Dies ist der Faktor, den wir analysieren möchten. Daher wird ein Regressionsmodell erstellt, um zu sehen, wie sich der Wert dieser Variablen abhängig vom Wert anderer Variablen ändert.
  • Unabhängige Variable (oder erklärende Variable) : Hierbei handelt es sich um einen Faktor, von dem wir glauben, dass er die Variable, die wir analysieren möchten, wahrscheinlich beeinflussen wird. Das heißt, der Wert der unabhängigen Variablen beeinflusst den Wert der abhängigen Variablen.

Arten der Regressionsanalyse

Grundsätzlich gibt es drei Arten der Regressionsanalyse :

  • Einfache lineare Regressionsanalyse : Das Regressionsmodell verfügt über eine unabhängige Variable und eine abhängige Variable, die linear miteinander verknüpft sind.
  • Multiple lineare Regressionsanalyse : Zwei oder mehr unabhängige Variablen stehen in einer linearen Beziehung zu einer abhängigen Variablen.
  • Nichtlineare Regressionsanalyse : Die Beziehung zwischen der unabhängigen Variablen und der abhängigen Variablen wird mithilfe einer nichtlinearen Funktion modelliert.

Einfache lineare Regressionsanalyse

Die einfache lineare Regression wird verwendet, um eine unabhängige Variable mithilfe einer linearen Gleichung mit beiden Variablen in Beziehung zu setzen.

Die Gleichung eines einfachen linearen Regressionsmodells ist eine Gerade und besteht daher aus zwei Koeffizienten: der Konstante der Gleichung (β 0 ) und dem Korrelationskoeffizienten zwischen den beiden Variablen (β 1 ). Daher lautet die Gleichung für ein einfaches lineares Regressionsmodell y=β 01 x.

y=\beta_0+\beta_1x

Die Formeln zur Berechnung der Koeffizienten der einfachen linearen Regression lauten wie folgt:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Gold:

  • \beta_0

    ist die Konstante der Regressionsgeraden.

  • \beta_1

    ist die Steigung der Regressionsgeraden.

  • x_i

    ist der Wert der unabhängigen Variablen X der Daten i.

  • y_i

    ist der Wert der abhängigen Variablen Y der Daten i.

  • \overline{x}

    ist der Durchschnitt der Werte der unabhängigen Variablen

  • \overline{y}

    ist der Durchschnitt der Werte der abhängigen Variablen Y.

Multiple lineare Regressionsanalyse

In einem multiplen linearen Regressionsmodell sind mindestens zwei unabhängige Variablen enthalten. Mit anderen Worten ermöglicht die multiple lineare Regression die lineare Verknüpfung mehrerer erklärender Variablen mit einer Antwortvariablen. Daher lautet die Gleichung für ein multiples lineares Regressionsmodell:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Gold:

  • y

    ist die abhängige Variable.

  • x_i

    ist die unabhängige Variable i.

  • \beta_0

    ist die Konstante der multiplen linearen Regressionsgleichung.

  • \beta_i

    ist der mit der Variablen verbundene Regressionskoeffizient

    x_i

    .

  • \bm{\varepsilon}

    ist der Fehler oder das Residuum, also die Differenz zwischen dem beobachteten Wert und dem vom Modell geschätzten Wert.

  • m

    ist die Gesamtzahl der Variablen im Modell.

Wenn wir also eine Stichprobe mit insgesamt haben

n

Beobachtungen können wir das multiple lineare Regressionsmodell in Matrixform darstellen:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

Der obige Matrixausdruck kann umgeschrieben werden, indem jeder Matrix ein Buchstabe zugewiesen wird:

Y=X\beta+\varepsilon

Durch Anwendung des Kriteriums der kleinsten Quadrate können wir also zu der Formel zur Schätzung der Koeffizienten eines multiplen linearen Regressionsmodells gelangen:

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Allerdings ist die Anwendung dieser Formel sehr mühsam und zeitaufwändig, weshalb in der Praxis die Verwendung von Computersoftware (wie Minitab oder Excel) empfohlen wird, mit der sich ein multiples Regressionsmodell wesentlich schneller erstellen lässt.

Nichtlineare Regressionsanalyse

In der Statistik ist die nichtlineare Regression ein Regressionstyp, bei dem eine nichtlineare Funktion als Modell der Regressionsgleichung verwendet wird. Daher ist die Gleichung eines nichtlinearen Regressionsmodells eine nichtlineare Funktion.

Logischerweise wird die nichtlineare Regression verwendet, um die unabhängige Variable mit der abhängigen Variablen in Beziehung zu setzen, wenn die Beziehung zwischen den beiden Variablen nicht linear ist. Wenn wir also bei der grafischen Darstellung der Beispieldaten feststellen, dass keine lineare Beziehung zwischen ihnen besteht, das heißt, dass sie nicht annähernd eine gerade Linie bilden, ist es besser, ein nichtlineares Regressionsmodell zu verwenden.

Beispielsweise ist die Gleichung y=3-5x-8x 2 +x 3 ein nichtlineares Regressionsmodell, da sie die unabhängige Variable X über eine kubische Funktion mathematisch mit der abhängigen Variablen Y in Beziehung setzt.

Es gibt hauptsächlich drei Arten der nichtlinearen Regression :

  • Polynomielle Regression – Nichtlineare Regression, deren Gleichung die Form eines Polynoms hat.
  • y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m

  • Logarithmische Regression – Nichtlineare Regression, bei der die unabhängige Variable logarithmiert wird.
  • y=\beta_0+\beta_1\cdot \ln(x)

  • Exponentielle Regression – Nichtlineare Regression, bei der die unabhängige Variable im Exponenten der Gleichung liegt.
  • y=\beta_0\cdot e^{\beta_1\cdot x}

Wozu dient die Regressionsanalyse?

Die Regressionsanalyse hat im Wesentlichen zwei Verwendungszwecke: Die Regressionsanalyse wird verwendet, um die Beziehung zwischen den erklärenden Variablen und der Antwortvariablen zu erklären, und in ähnlicher Weise wird die Regressionsanalyse verwendet, um den Wert der abhängigen Variablen für eine neue Beobachtung vorherzusagen.

Indem wir die Gleichung des Regressionsmodells erhalten, können wir wissen, welche Art von Beziehung zwischen den Variablen im Modell besteht. Wenn der Regressionskoeffizient einer unabhängigen Variablen positiv ist, nimmt die abhängige Variable zu, wenn sie zunimmt. Wenn hingegen der Regressionskoeffizient einer unabhängigen Variablen negativ ist, nimmt die abhängige Variable ab, wenn sie zunimmt.

Andererseits erlaubt uns die aus der Regressionsanalyse gewonnene mathematische Gleichung auch, Wertvorhersagen zu treffen. Indem wir also die Werte der erklärenden Variablen in die Gleichung des Regressionsmodells einführen, können wir den Wert der abhängigen Variablen für ein neues Datenelement berechnen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert