Jak interpretować współczynniki regresji
W statystyce analiza regresji jest techniką, którą można zastosować do analizy związku między zmiennymi predykcyjnymi a zmienną odpowiedzi.
Kiedy używasz oprogramowania (takiego jak R , Stata , SPSS itp.) do przeprowadzania analizy regresji, jako dane wyjściowe otrzymasz tabelę regresji podsumowującą wyniki regresji.
Prawdopodobnie najważniejszymi liczbami w wynikach tabeli regresji są współczynniki regresji . Jednak pomimo ich znaczenia wiele osób ma trudności z prawidłową interpretacją tych liczb.
W tym samouczku przedstawiono przykład analizy regresji i szczegółowo wyjaśniono, jak interpretować współczynniki regresji wynikające z regresji.
Powiązane: Jak czytać i interpretować całą tabelę regresji
Przykład analizy regresji
Załóżmy, że chcemy przeprowadzić analizę regresji przy użyciu następujących zmiennych:
Zmienne predykcyjne
- Całkowita liczba przepracowanych godzin ( zmienna ciągła – od 0 do 20 )
- Czy uczeń korzystał z pomocy korepetytora ( zmienna kategoryczna – „tak” lub „nie” )
Zmienna odpowiedzi
- Wynik egzaminu (zmienny ciągły – od 1 do 100 )
Chcemy zbadać związek między zmiennymi predykcyjnymi a zmienną odpowiedzi, aby sprawdzić, czy godziny nauki i to, czy uczeń korzystał z korepetycji, rzeczywiście mają znaczący wpływ na jego ocenę z egzaminu.
Załóżmy, że przeprowadzamy analizę regresji i uzyskujemy następujący wynik:
Termin | Współczynnik | Standardowy błąd | Statystyki | Wartość P |
---|---|---|---|---|
Przechwycić | 48,56 | 14:32 | 3,39 | 0,002 |
Godziny nauki | 2.03 | 0,67 | 3.03 | 0,009 |
Korepetytor | 8.34 | 5,68 | 1,47 | 0,138 |
Zobaczmy, jak interpretować każdy współczynnik regresji.
Interpretacja przechwycenia
Pierwotny termin w tabeli regresji informuje nas o oczekiwanej średniej wartości zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne są równe zero.
W tym przykładzie współczynnik regresji dla początku jest równy 48,56 . Oznacza to, że dla studenta, który uczył się zero godzin ( Godziny nauki = 0) i nie korzystał z korepetycji ( opiekun = 0), średni oczekiwany wynik egzaminu wynosi 48,56.
Należy zauważyć, że współczynnik regresji dla wyrazu wolnego jest istotny tylko wtedy, gdy uzasadnione jest założenie, że wszystkie zmienne predykcyjne w modelu mogą w rzeczywistości być równe zero. W tym przykładzie z pewnością jest możliwe, że student uczył się zero godzin ( Godziny nauki = 0) i również nie korzystał z pomocy korepetytora ( Opiekun = 0). Zatem interpretacja współczynnika regresji wyrazu wolnego jest w tym przykładzie znacząca.
Jednakże w niektórych przypadkach współczynnik regresji dla wyrazu wolnego jest nieistotny. Załóżmy na przykład, że przeprowadziliśmy analizę regresji, używając metra kwadratowego jako zmiennej predykcyjnej i wartości domu jako zmiennej odpowiedzi.
W wyjściowej tabeli regresji współczynnik regresji dla pierwotnego składnika nie miałby znaczącej interpretacji, ponieważ powierzchnia domu nigdy nie może być równa zeru. W tym przypadku współczynnik regresji dla pierwotnego składnika po prostu zakotwicza linię regresji we właściwym miejscu.
Interpretacja współczynnika zmiennej predykcyjnej ciągłej
W przypadku ciągłej zmiennej predykcyjnej współczynnik regresji reprezentuje różnicę między przewidywaną wartością zmiennej odpowiedzi dla każdej jednojednostkowej zmiany zmiennej predykcyjnej, przy założeniu, że wszystkie pozostałe zmienne predykcyjne pozostają stałe.
W tym przykładzie badane godziny są ciągłą zmienną predykcyjną o zakresie od 0 do 20 godzin. W niektórych przypadkach student uczył się tylko przez zero godzin, a w innych do 20 godzin.
Z wyniku regresji widać, że współczynnik regresji dla badanych godzin wynosi 2,03 . Oznacza to, że średnio każda dodatkowa godzina nauki wiąże się ze wzrostem o 2,03 punktu na egzaminie końcowym, przy założeniu, że zmienna predykcyjna Tutor pozostaje stała.
Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź także pod uwagę Studenta B, który uczy się przez 11 godzin i również korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń B uzyska na egzaminie o 2,03 punktu więcej niż uczeń A.
Wartość p tabeli regresji mówi nam, czy ten współczynnik regresji jest rzeczywiście statystycznie istotny, czy nie. Widzimy, że wartość p dla badanych godzin wynosi 0,009 , co jest statystycznie istotne na poziomie alfa 0,05.
Uwaga: Poziom alfa należy wybrać przed wykonaniem analizy regresji – najczęściej wybieranymi poziomami alfa są 0,01, 0,05 i 0,10.
Powiązany artykuł: Wyjaśnienie wartości P i ich znaczenia statystycznego
Interpretacja współczynnika zmiennej predyktora kategorycznego
W przypadku jakościowej zmiennej predykcyjnej współczynnik regresji reprezentuje różnicę w przewidywanej wartości zmiennej odpowiedzi pomiędzy kategorią, dla której zmienna predykcyjna = 0, a kategorią, dla której zmienna predykcyjna = 1.
W tym przykładzie Tutor jest kategoryczną zmienną predykcyjną, która może przyjmować dwie różne wartości:
- 1 = uczeń korzystał z pomocy korepetytora w celu przygotowania się do egzaminu
- 0 = student nie korzystał z pomocy korepetytora w przygotowaniu do egzaminu
Z wyniku regresji widzimy, że współczynnik regresji dla Tutora wynosi 8,34 . Oznacza to, że uczeń korzystający z korepetycji uzyskał na egzaminie średnio o 8,34 punktu więcej niż uczeń nie korzystający z korepetytora, przy założeniu, że zmienna predykcyjna Badane godziny pozostaje stała.
Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź również pod uwagę Studenta B, który uczy się przez 10 godzin i nie korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń A uzyska wynik egzaminu o 8,34 punktu wyższy niż uczeń B.
Wartość p tabeli regresji mówi nam, czy ten współczynnik regresji jest rzeczywiście statystycznie istotny, czy nie. Widzimy, że wartość p dla Tutora wynosi 0,138 , co nie jest statystycznie istotne na poziomie alfa 0,05. Oznacza to, że chociaż uczniowie korzystający z korepetycji radzili sobie lepiej na egzaminie, różnica ta mogła wynikać z przypadku.
Zinterpretuj wszystkie współczynniki na raz
Możemy użyć wszystkich współczynników z tabeli regresji, aby utworzyć następujące szacunkowe równanie regresji:
Oczekiwany wynik egzaminu = 48,56 + 2,03*(Godziny nauki) + 8,34*(Nauczyciel)
Uwaga : należy pamiętać, że zmienna predykcyjna „Nauczyciel” nie była istotna statystycznie na poziomie alfa 0,05, dlatego można usunąć ten predyktor z modelu i nie używać go w ostatecznym oszacowaniu równania regresji.
Korzystając z tego szacunkowego równania regresji, możemy przewidzieć ocenę końcową ucznia z egzaminu na podstawie całkowitej liczby godzin nauki oraz tego, czy korzystał on z korepetycji.
Przykładowo, student, który uczył się 10 godzin i korzystał z korepetycji, powinien otrzymać ocenę z egzaminu:
Oczekiwany wynik egzaminu = 48,56 + 2,03*(10) + 8,34*(1) = 77,2
Uwzględnianie korelacji przy interpretacji współczynników regresji
Należy pamiętać, że w modelu regresji zmienne predykcyjne mogą na siebie wpływać. Na przykład większość zmiennych predykcyjnych będzie przynajmniej w pewnym stopniu ze sobą powiązana (np. uczeń, który więcej się uczy, z większym prawdopodobieństwem skorzysta z pomocy korepetytora).
Oznacza to, że współczynniki regresji będą się zmieniać po dodaniu lub usunięciu różnych zmiennych predykcyjnych z modelu.
Dobrym sposobem sprawdzenia, czy korelacja między zmiennymi predykcyjnymi jest na tyle silna, aby poważnie wpłynąć na model regresji, jest sprawdzenie VIF między zmiennymi predykcyjnymi .
Dzięki temu dowiesz się, czy korelacja między zmiennymi predykcyjnymi jest problemem, który należy rozwiązać przed podjęciem decyzji o interpretacji współczynników regresji.
Jeśli uruchomisz prosty model regresji liniowej z jednym predyktorem, skorelowane zmienne predykcyjne nie będą stanowić problemu.