Równanie regresji

W tym artykule wyjaśniono, czym jest równanie regresji i do czego się go stosuje. Podobnie dowiesz się, jak znaleźć równanie regresji, rozwiązane ćwiczenie i wreszcie kalkulator online umożliwiający obliczenie równania regresji dla dowolnego zbioru danych.

Co to jest równanie regresji?

Równanie regresji to równanie, które najlepiej pasuje do wykresu punktowego, co oznacza, że równanie regresji jest najlepszym przybliżeniem zbioru danych.

Równanie regresji ma postać y=β 0 + β 1 x, gdzie β 0 jest stałą równania, a β 1 jest nachyleniem równania.

y=\beta_0+\beta_1x

Jeśli spojrzysz na równanie regresji, jest to równanie linii. Oznacza to, że związek pomiędzy zmienną niezależną X i zmienną zależną Y jest modelowany jako zależność liniowa, ponieważ prosta reprezentuje zależność liniową.

Zatem równanie regresji pozwala nam matematycznie powiązać zmienną niezależną i zmienną zależną zbioru danych. Chociaż równanie regresji na ogół nie jest w stanie precyzyjnie określić wartości każdej obserwacji, niemniej jednak służy do uzyskania przybliżenia jej wartości.

równanie regresji

Jak widać na poprzednim wykresie, równanie regresji pomaga nam zobaczyć trend zbioru danych oraz rodzaj związku pomiędzy zmienną niezależną a zmienną zależną.

Jak obliczyć równanie regresji

Wzory do obliczania współczynników prostego równania regresji liniowej są następujące:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Złoto:

  • \beta_0

    jest stałą równania regresji.

  • \beta_1

    jest nachyleniem równania regresji.

  • x_i

    jest wartością zmiennej niezależnej X danych i.

  • y_i

    jest wartością zmiennej zależnej Y danych i.

  • \overline{x}

    jest średnią wartości zmiennej niezależnej

  • \overline{y}

    jest średnią wartości zmiennej zależnej Y.

Przykład obliczenia równania regresji

  • Po zdaniu egzaminu statystycznego pięciu studentów zostało zapytanych, ile godzin nauki spędzili na egzaminie, dane przedstawia poniższa tabela. Na podstawie zebranych danych statystycznych oblicz równanie regresji, aby liniowo powiązać liczbę godzin nauki z uzyskaną oceną. Następnie ustal, jaką ocenę otrzyma uczeń, który uczył się 8 godzin.

Aby znaleźć równanie regresji dla przykładowych danych, musimy wyznaczyć współczynniki b 0 i b 1 równania i w tym celu skorzystać ze wzorów przedstawionych w powyższej sekcji.

Aby jednak zastosować wzory na równanie regresji liniowej, musimy najpierw obliczyć średnią zmiennej niezależnej i średnią zmiennej zależnej:

\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}

Teraz, gdy znamy średnie zmiennych, obliczamy współczynnik β 1 modelu, korzystając z odpowiedniego wzoru:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] \beta_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]\beta_1=0,4412\end{array}

Na koniec obliczamy współczynnik β 0 modelu, korzystając z odpowiedniego wzoru:

\begin{array}{l}\beta_0=\overline{y}-\beta_1\overline{x}\\[3ex]\beta_0=6-0,4412\cdot 9 \\[3ex]\beta_0=2,0294\end{array}

Krótko mówiąc, równanie linii regresji liniowej problemu wygląda następująco:

y=2,0294+0,4412x

Poniżej możesz zobaczyć graficzną reprezentację przykładowych danych wraz z prostym równaniem modelu regresji liniowej:

przykład linii regresji liniowej

Po obliczeniu równania regresji, aby przewidzieć ocenę, jaką uzyska student, który uczył się 8 godzin, wystarczy podstawić tę wartość do otrzymanego równania regresji:

y=2,0294+0,4412\cdot 8=5,56

Zatem zgodnie z przeprowadzonym modelem regresji liniowej, jeśli student uczył się osiem godzin, uzyska na egzaminie notę 5,56.

Kalkulator równań regresji

Podłącz przykładowe dane do poniższego kalkulatora, aby obliczyć równanie regresji. Należy rozdzielić pary danych tak, aby w pierwszym polu znajdowały się tylko wartości zmiennej niezależnej X, a w drugim polu znajdowały się wyłącznie wartości zmiennej zależnej Y.

Dane należy oddzielić spacją i wprowadzić z użyciem kropki jako separatora dziesiętnego.

  • Niezależna zmienna

  • Zmienna zależna Y:

Równanie wielokrotnej regresji liniowej

Właśnie widzieliśmy, czym jest proste równanie regresji liniowej, jednak model regresji może być również modelem wielokrotnej regresji liniowej, który obejmuje dwie lub więcej niezależnych zmiennych. Zatem wielokrotna regresja liniowa umożliwia liniowe powiązanie kilku zmiennych objaśniających ze zmienną odpowiedzi.

Równanie modelu wielokrotnej regresji liniowej wygląda następująco:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Złoto:

  • y

    jest zmienną zależną.

  • x_i

    jest zmienną niezależną i.

  • \beta_0

    jest stałą równania regresji liniowej.

  • \beta_i

    jest współczynnikiem regresji powiązanym ze zmienną

    x_i

    .

  • \bm{\varepsilon}

    jest błędem lub resztą, to znaczy różnicą między wartością obserwowaną a wartością oszacowaną przez model.

  • m

    jest całkowitą liczbą zmiennych w modelu.

Jeśli więc mamy próbkę o łącznej wartości

n

obserwacji możemy przedstawić model wielokrotnej regresji liniowej w postaci macierzowej:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

Powyższe wyrażenie macierzowe można przepisać, przypisując literę do każdej macierzy:

Y=X\beta+\varepsilon

Zatem, stosując kryterium najmniejszych kwadratów, możemy otrzymać wzór na oszacowanie współczynników równania regresji wielokrotnej liniowej :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Stosowanie tej formuły jest jednak bardzo pracochłonne i czasochłonne, dlatego w praktyce zaleca się stosowanie programów komputerowych (takich jak Minitab czy Excel), które pozwalają znacznie szybciej stworzyć model regresji wielokrotnej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *