Jak wyznaczać zmienne istotne w modelach regresji
Jedno z głównych pytań, jakie sobie zadajesz po dopasowaniu modelu regresji liniowej wielokrotnej, brzmi: które zmienne są istotne?
Istnieją dwie metody , których nie należy używać do określania znaczenia zmiennej:
1. Wartość współczynników regresji
Współczynnik regresji dla danej zmiennej predykcyjnej informuje o średniej zmianie zmiennej odpowiedzi powiązanej ze wzrostem o jedną jednostkę tej zmiennej predykcyjnej.
Jednakże każda zmienna predykcyjna w modelu jest zwykle mierzona w innej skali. Nie ma zatem sensu porównywanie wartości bezwzględnych współczynników regresji w celu ustalenia, które zmienne są najważniejsze.
2. Wartości p współczynników regresji
Wartości p współczynników regresji mogą powiedzieć, czy dana zmienna predykcyjna ma statystycznie istotny związek ze zmienną odpowiedzi, ale nie mogą powiedzieć, czy dana zmienna predykcyjna jest praktycznie istotna w świecie rzeczywistym.
Wartości P mogą być również niskie ze względu na dużą wielkość próby lub niską zmienność, co tak naprawdę nie mówi nam, czy dana zmienna predykcyjna ma znaczenie w praktyce.
Istnieją jednak dwie metody , których należy użyć w celu określenia znaczenia zmiennych:
1. Standaryzowane współczynniki regresji
Zwykle, gdy przeprowadzamy wielokrotną regresję liniową, uzyskane współczynniki regresji w wynikach modelu nie są standaryzowane , co oznacza, że na podstawie surowych danych znajdują się linie najlepiej dopasowane.
Istnieje jednak możliwość standaryzacji każdej zmiennej predykcyjnej i zmiennej odpowiedzi (odbierając średnią wartość każdej zmiennej od wartości wyjściowych i następnie dzieląc ją przez odchylenie standardowe zmiennych), a następnie przeprowadzić regresję, w wyniku której standaryzowane współczynniki regresji .
Standaryzując każdą zmienną w modelu, każda zmienna jest mierzona w tej samej skali. Dlatego sensowne jest porównanie wartości bezwzględnych współczynników regresji w wynikach, aby zrozumieć, które zmienne mają największy wpływ na zmienną odpowiedzi.
2. Wiedza merytoryczna
Chociaż wartości p mogą powiedzieć, czy istnieje statystycznie istotny efekt pomiędzy daną zmienną predykcyjną a zmienną odpowiedzi, potrzebna jest specjalistyczna wiedza merytoryczna, aby potwierdzić, czy zmienna predykcyjna jest rzeczywiście istotna i faktycznie powinna zostać uwzględniona w modelu.
Poniższy przykład pokazuje, jak w praktyce wyznaczać zmienne istotne w modelu regresji.
Przykład: Jak określić istotne zmienne w modelu regresji
Załóżmy, że mamy następujący zbiór danych zawierający informacje na temat wieku, powierzchni i ceny sprzedaży 12 domów:
Załóżmy, że następnie przeprowadzamy wielokrotną regresję liniową, używając wieku i metrażu jako zmiennych predykcyjnych oraz ceny jako zmiennej odpowiedzi.
Otrzymujemy następujący wynik:
Współczynniki regresji w tej tabeli nie są ustandaryzowane , co oznacza, że do dopasowania tego modelu regresji wykorzystano surowe dane.
Na pierwszy rzut oka wydaje się, że wiek ma znacznie większy wpływ na cenę nieruchomości, gdyż jego współczynnik w tabeli regresji wynosi -409,833 w porównaniu do zaledwie 100,866 dla predyktora o zmiennej powierzchni metra kwadratowego .
Jednak błąd standardowy jest znacznie większy w przypadku wieku niż w przypadku metra kwadratowego, dlatego odpowiadająca mu wartość p jest w rzeczywistości duża dla wieku (p = 0,520) i mała dla kwadratów metra kwadratowego (p = 0,000).
Przyczyną skrajnych różnic we współczynnikach regresji są skrajne różnice w skalach dla dwóch zmiennych:
- Wartości dla przedziału wiekowego od 4 do 44 lat.
- Wartości metrów kwadratowych wahają się od 1200 do 2800.
Załóżmy, że zamiast tego normalizujemy surowe dane:
Jeśli następnie przeprowadzimy wielokrotną regresję liniową przy użyciu standaryzowanych danych, otrzymamy następujący wynik regresji:
Współczynniki regresji w tej tabeli są standaryzowane , co oznacza, że do dopasowania tego modelu regresji wykorzystano standardowe dane.
Sposób interpretacji współczynników w tabeli jest następujący:
- Wzrost wieku o jedno odchylenie standardowe jest powiązany ze spadkiem ceny domu o 0,092 odchylenia standardowego, przy założeniu, że powierzchnia domu pozostaje stała.
- Wzrost metra kwadratowego o jedno odchylenie standardowe jest powiązany ze wzrostem ceny domu o 0,885 odchylenia standardowego, przy założeniu, że wiek pozostaje stały.
Widzimy teraz, że powierzchnia domu ma znacznie większy wpływ na ceny domów niż wiek.
Uwaga : Wartości p dla każdej zmiennej predykcyjnej są dokładnie takie same jak w poprzednim modelu regresji.
Podejmując decyzję, który model ostatecznie zastosować, wiemy, że powierzchnia domu jest o wiele ważniejsza w przewidywaniu ceny domu niż jego wiek .
Ostatecznie będziemy musieli wykorzystać naszą wiedzę merytoryczną, aby określić, które zmienne uwzględnić w ostatecznym modelu, w oparciu o istniejącą wiedzę na temat cen mieszkań i nieruchomości.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat modeli regresji:
Jak czytać i interpretować tabelę regresji
Jak interpretować współczynniki regresji
Jak interpretować wartości P w regresji liniowej