Standaryzowane i niestandaryzowane współczynniki regresji


Wielokrotna regresja liniowa jest użyteczną metodą ilościowego określenia związku między dwiema lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi .

Zazwyczaj, gdy przeprowadzamy wielokrotną regresję liniową, uzyskane współczynniki regresji nie są standaryzowane , co oznacza, że na podstawie surowych danych znajdują się linie najlepiej dopasowane.

Jednakże, gdy zmienne predykcyjne są mierzone w radykalnie różnych skalach, przydatne może być wykonanie wielokrotnej regresji liniowej przy użyciu standardowych danych, w wyniku czego otrzymane zostaną ustandaryzowane współczynniki.

Aby pomóc Ci zrozumieć tę ideę, przeanalizujmy prosty przykład.

Przykład: Standaryzowane i niestandaryzowane współczynniki regresji

Załóżmy, że mamy następujący zbiór danych zawierający informacje na temat wieku, powierzchni i ceny sprzedaży 12 domów:

Załóżmy, że następnie przeprowadzamy wielokrotną regresję liniową, używając wieku i metrażu jako zmiennych predykcyjnych oraz ceny jako zmiennej odpowiedzi.

Oto wynik regresji :

Przykład niestandaryzowanych współczynników regresji

Współczynniki regresji w tej tabeli nie są ustandaryzowane , co oznacza, że do dopasowania tego modelu regresji wykorzystano surowe dane. Na pierwszy rzut oka wydaje się, że wiek ma znacznie większy wpływ na cenę nieruchomości, gdyż jego współczynnik w tabeli regresji wynosi -409,833 w porównaniu do zaledwie 100,866 dla predyktora o zmiennej stopie kwadratowej .

Jednak błąd standardowy jest znacznie większy w przypadku wieku niż w przypadku metra kwadratowego, dlatego też odpowiadająca mu wartość p jest w rzeczywistości duża dla wieku (p = 0,520) i mała dla kwadratów metra kwadratowego (p = 0,000).

Przyczyną skrajnych różnic we współczynnikach regresji są skrajne różnice w skalach dla dwóch zmiennych:

  • Wartości dla przedziału wiekowego od 4 do 44 lat.
  • Wartości metrów kwadratowych wahają się od 1200 do 2800.

Załóżmy, że zamiast tego normalizujemy oryginalne surowe dane, konwertując każdą oryginalną wartość danych na wskaźnik Z:

Standaryzuj dane w Excelu

Jeśli następnie przeprowadzimy wielokrotną regresję liniową przy użyciu standaryzowanych danych, otrzymamy następujący wynik regresji:

Standaryzowane współczynniki regresji

Współczynniki regresji w tej tabeli są standaryzowane , co oznacza, że do dopasowania tego modelu regresji wykorzystano standardowe dane. Sposób interpretacji współczynników w tabeli jest następujący:

  • Wzrost wieku o jedno odchylenie standardowe jest powiązany ze spadkiem ceny domu o 0,092 odchylenia standardowego, przy założeniu, że powierzchnia domu pozostaje stała.
  • Wzrost metra kwadratowego o jedno odchylenie standardowe jest powiązany ze wzrostem ceny domu o 0,885 odchylenia standardowego, przy założeniu, że wiek pozostaje stały.

Od razu widać, że metraż ma znacznie większy wpływ na ceny nieruchomości niż wiek. Należy również pamiętać, że wartości p dla każdej zmiennej predykcyjnej są dokładnie takie same, jak w poprzednim modelu regresji.

Powiązane: Jak obliczyć wyniki Z w programie Excel

Kiedy stosować standardowe, a kiedy niestandaryzowane współczynniki regresji

W zależności od sytuacji przydatne mogą być zarówno standardowe, jak i niestandaryzowane współczynniki regresji. Zwłaszcza:

Niestandaryzowane współczynniki regresji są przydatne, gdy chcesz zinterpretować wpływ, jaki jednojednostkowa zmiana zmiennej predykcyjnej ma na zmienną odpowiedzi. W powyższym przykładzie moglibyśmy użyć niestandaryzowanych współczynników regresji z pierwszej regresji, aby zrozumieć dokładny związek między zmiennymi predykcyjnymi a zmienną odpowiedzi:

  • Wzrost wieku o jedną jednostkę wiązał się ze średnim spadkiem ceny domu o 409 dolarów , przy założeniu, że powierzchnia mieszkania pozostała stała. Współczynnik ten okazał się nieistotny statystycznie (p=0,520).
  • Wzrost powierzchni domu o jedną jednostkę wiązał się ze średnim wzrostem cen domów o 100 dolarów , przy założeniu, że wiek nie uległ zmianie. Współczynnik ten również okazał się istotny statystycznie (p=0,000).

Standaryzowane współczynniki regresji są przydatne, gdy chcesz porównać wpływ różnych zmiennych predykcyjnych na zmienną odpowiedzi. Ponieważ każda zmienna jest standaryzowana, można zobaczyć, która zmienna ma największy wpływ na zmienną odpowiedzi.

Wadą standaryzowanych współczynników regresji jest to, że są nieco trudniejsze w interpretacji. Łatwiej jest na przykład zrozumieć wpływ wzrostu ceny nieruchomości o jedną jednostkę wieku niż wpływ wzrostu ceny nieruchomości o jedno odchylenie standardowe.

Dodatkowe zasoby

Jak czytać i interpretować tabelę regresji
Jak interpretować współczynniki regresji
Jak wykonać wielokrotną regresję liniową w programie Excel

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *