Jak wyznaczać zmienne istotne w modelach regresji


Jedno z głównych pytań, jakie sobie zadajesz po dopasowaniu modelu regresji liniowej wielokrotnej, brzmi: które zmienne są istotne?

Istnieją dwie metody , których nie należy używać do określania znaczenia zmiennej:

1. Wartość współczynników regresji

Współczynnik regresji dla danej zmiennej predykcyjnej informuje o średniej zmianie zmiennej odpowiedzi powiązanej ze wzrostem o jedną jednostkę tej zmiennej predykcyjnej.

Jednakże każda zmienna predykcyjna w modelu jest zwykle mierzona w innej skali. Nie ma zatem sensu porównywanie wartości bezwzględnych współczynników regresji w celu ustalenia, które zmienne są najważniejsze.

2. Wartości p współczynników regresji

Wartości p współczynników regresji mogą powiedzieć, czy dana zmienna predykcyjna ma statystycznie istotny związek ze zmienną odpowiedzi, ale nie mogą powiedzieć, czy dana zmienna predykcyjna jest praktycznie istotna w świecie rzeczywistym.

Wartości P mogą być również niskie ze względu na dużą wielkość próby lub niską zmienność, co tak naprawdę nie mówi nam, czy dana zmienna predykcyjna ma znaczenie w praktyce.

Istnieją jednak dwie metody , których należy użyć w celu określenia znaczenia zmiennych:

1. Standaryzowane współczynniki regresji

Zwykle, gdy przeprowadzamy wielokrotną regresję liniową, uzyskane współczynniki regresji w wynikach modelu nie są standaryzowane , co oznacza, że na podstawie surowych danych znajdują się linie najlepiej dopasowane.

Istnieje jednak możliwość standaryzacji każdej zmiennej predykcyjnej i zmiennej odpowiedzi (odbierając średnią wartość każdej zmiennej od wartości wyjściowych i następnie dzieląc ją przez odchylenie standardowe zmiennych), a następnie przeprowadzić regresję, w wyniku której standaryzowane współczynniki regresji .

Standaryzując każdą zmienną w modelu, każda zmienna jest mierzona w tej samej skali. Dlatego sensowne jest porównanie wartości bezwzględnych współczynników regresji w wynikach, aby zrozumieć, które zmienne mają największy wpływ na zmienną odpowiedzi.

2. Wiedza merytoryczna

Chociaż wartości p mogą powiedzieć, czy istnieje statystycznie istotny efekt pomiędzy daną zmienną predykcyjną a zmienną odpowiedzi, potrzebna jest specjalistyczna wiedza merytoryczna, aby potwierdzić, czy zmienna predykcyjna jest rzeczywiście istotna i faktycznie powinna zostać uwzględniona w modelu.

Poniższy przykład pokazuje, jak w praktyce wyznaczać zmienne istotne w modelu regresji.

Przykład: Jak określić istotne zmienne w modelu regresji

Załóżmy, że mamy następujący zbiór danych zawierający informacje na temat wieku, powierzchni i ceny sprzedaży 12 domów:

Załóżmy, że następnie przeprowadzamy wielokrotną regresję liniową, używając wieku i metrażu jako zmiennych predykcyjnych oraz ceny jako zmiennej odpowiedzi.

Otrzymujemy następujący wynik:

Przykład niestandaryzowanych współczynników regresji

Współczynniki regresji w tej tabeli nie są ustandaryzowane , co oznacza, że do dopasowania tego modelu regresji wykorzystano surowe dane.

Na pierwszy rzut oka wydaje się, że wiek ma znacznie większy wpływ na cenę nieruchomości, gdyż jego współczynnik w tabeli regresji wynosi -409,833 w porównaniu do zaledwie 100,866 dla predyktora o zmiennej powierzchni metra kwadratowego .

Jednak błąd standardowy jest znacznie większy w przypadku wieku niż w przypadku metra kwadratowego, dlatego odpowiadająca mu wartość p jest w rzeczywistości duża dla wieku (p = 0,520) i mała dla kwadratów metra kwadratowego (p = 0,000).

Przyczyną skrajnych różnic we współczynnikach regresji są skrajne różnice w skalach dla dwóch zmiennych:

  • Wartości dla przedziału wiekowego od 4 do 44 lat.
  • Wartości metrów kwadratowych wahają się od 1200 do 2800.

Załóżmy, że zamiast tego normalizujemy surowe dane:

Standaryzuj dane w Excelu

Jeśli następnie przeprowadzimy wielokrotną regresję liniową przy użyciu standaryzowanych danych, otrzymamy następujący wynik regresji:

Standaryzowane współczynniki regresji

Współczynniki regresji w tej tabeli są standaryzowane , co oznacza, że do dopasowania tego modelu regresji wykorzystano standardowe dane.

Sposób interpretacji współczynników w tabeli jest następujący:

  • Wzrost wieku o jedno odchylenie standardowe jest powiązany ze spadkiem ceny domu o 0,092 odchylenia standardowego, przy założeniu, że powierzchnia domu pozostaje stała.
  • Wzrost metra kwadratowego o jedno odchylenie standardowe jest powiązany ze wzrostem ceny domu o 0,885 odchylenia standardowego, przy założeniu, że wiek pozostaje stały.

Widzimy teraz, że powierzchnia domu ma znacznie większy wpływ na ceny domów niż wiek.

Uwaga : Wartości p dla każdej zmiennej predykcyjnej są dokładnie takie same jak w poprzednim modelu regresji.

Podejmując decyzję, który model ostatecznie zastosować, wiemy, że powierzchnia domu jest o wiele ważniejsza w przewidywaniu ceny domu niż jego wiek .

Ostatecznie będziemy musieli wykorzystać naszą wiedzę merytoryczną, aby określić, które zmienne uwzględnić w ostatecznym modelu, w oparciu o istniejącą wiedzę na temat cen mieszkań i nieruchomości.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat modeli regresji:

Jak czytać i interpretować tabelę regresji
Jak interpretować współczynniki regresji
Jak interpretować wartości P w regresji liniowej

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *