Jak interpretować współczynniki regresji


W statystyce analiza regresji jest techniką, którą można zastosować do analizy związku między zmiennymi predykcyjnymi a zmienną odpowiedzi.

Kiedy używasz oprogramowania (takiego jak R , Stata , SPSS itp.) do przeprowadzania analizy regresji, jako dane wyjściowe otrzymasz tabelę regresji podsumowującą wyniki regresji.

Prawdopodobnie najważniejszymi liczbami w wynikach tabeli regresji są współczynniki regresji . Jednak pomimo ich znaczenia wiele osób ma trudności z prawidłową interpretacją tych liczb.

W tym samouczku przedstawiono przykład analizy regresji i szczegółowo wyjaśniono, jak interpretować współczynniki regresji wynikające z regresji.

Powiązane: Jak czytać i interpretować całą tabelę regresji

Przykład analizy regresji

Załóżmy, że chcemy przeprowadzić analizę regresji przy użyciu następujących zmiennych:

Zmienne predykcyjne

  • Całkowita liczba przepracowanych godzin ( zmienna ciągła – od 0 do 20 )
  • Czy uczeń korzystał z pomocy korepetytora ( zmienna kategoryczna – „tak” lub „nie” )

Zmienna odpowiedzi

  • Wynik egzaminu (zmienny ciągły – od 1 do 100 )

Chcemy zbadać związek między zmiennymi predykcyjnymi a zmienną odpowiedzi, aby sprawdzić, czy godziny nauki i to, czy uczeń korzystał z korepetycji, rzeczywiście mają znaczący wpływ na jego ocenę z egzaminu.

Załóżmy, że przeprowadzamy analizę regresji i uzyskujemy następujący wynik:

Termin Współczynnik Standardowy błąd Statystyki Wartość P
Przechwycić 48,56 14:32 3,39 0,002
Godziny nauki 2.03 0,67 3.03 0,009
Korepetytor 8.34 5,68 1,47 0,138

Zobaczmy, jak interpretować każdy współczynnik regresji.

Interpretacja przechwycenia

Pierwotny termin w tabeli regresji informuje nas o oczekiwanej średniej wartości zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne są równe zero.

W tym przykładzie współczynnik regresji dla początku jest równy 48,56 . Oznacza to, że dla studenta, który uczył się zero godzin ( Godziny nauki = 0) i nie korzystał z korepetycji ( opiekun = 0), średni oczekiwany wynik egzaminu wynosi 48,56.

Należy zauważyć, że współczynnik regresji dla wyrazu wolnego jest istotny tylko wtedy, gdy uzasadnione jest założenie, że wszystkie zmienne predykcyjne w modelu mogą w rzeczywistości być równe zero. W tym przykładzie z pewnością jest możliwe, że student uczył się zero godzin ( Godziny nauki = 0) i również nie korzystał z pomocy korepetytora ( Opiekun = 0). Zatem interpretacja współczynnika regresji wyrazu wolnego jest w tym przykładzie znacząca.

Jednakże w niektórych przypadkach współczynnik regresji dla wyrazu wolnego jest nieistotny. Załóżmy na przykład, że przeprowadziliśmy analizę regresji, używając metra kwadratowego jako zmiennej predykcyjnej i wartości domu jako zmiennej odpowiedzi.

W wyjściowej tabeli regresji współczynnik regresji dla pierwotnego składnika nie miałby znaczącej interpretacji, ponieważ powierzchnia domu nigdy nie może być równa zeru. W tym przypadku współczynnik regresji dla pierwotnego składnika po prostu zakotwicza linię regresji we właściwym miejscu.

Interpretacja współczynnika zmiennej predykcyjnej ciągłej

W przypadku ciągłej zmiennej predykcyjnej współczynnik regresji reprezentuje różnicę między przewidywaną wartością zmiennej odpowiedzi dla każdej jednojednostkowej zmiany zmiennej predykcyjnej, przy założeniu, że wszystkie pozostałe zmienne predykcyjne pozostają stałe.

W tym przykładzie badane godziny są ciągłą zmienną predykcyjną o zakresie od 0 do 20 godzin. W niektórych przypadkach student uczył się tylko przez zero godzin, a w innych do 20 godzin.

Z wyniku regresji widać, że współczynnik regresji dla badanych godzin wynosi 2,03 . Oznacza to, że średnio każda dodatkowa godzina nauki wiąże się ze wzrostem o 2,03 punktu na egzaminie końcowym, przy założeniu, że zmienna predykcyjna Tutor pozostaje stała.

Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź także pod uwagę Studenta B, który uczy się przez 11 godzin i również korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń B uzyska na egzaminie o 2,03 punktu więcej niż uczeń A.

Wartość p tabeli regresji mówi nam, czy ten współczynnik regresji jest rzeczywiście statystycznie istotny, czy nie. Widzimy, że wartość p dla badanych godzin wynosi 0,009 , co jest statystycznie istotne na poziomie alfa 0,05.

Uwaga: Poziom alfa należy wybrać przed wykonaniem analizy regresji – najczęściej wybieranymi poziomami alfa są 0,01, 0,05 i 0,10.

Powiązany artykuł: Wyjaśnienie wartości P i ich znaczenia statystycznego

Interpretacja współczynnika zmiennej predyktora kategorycznego

W przypadku jakościowej zmiennej predykcyjnej współczynnik regresji reprezentuje różnicę w przewidywanej wartości zmiennej odpowiedzi pomiędzy kategorią, dla której zmienna predykcyjna = 0, a kategorią, dla której zmienna predykcyjna = 1.

W tym przykładzie Tutor jest kategoryczną zmienną predykcyjną, która może przyjmować dwie różne wartości:

  • 1 = uczeń korzystał z pomocy korepetytora w celu przygotowania się do egzaminu
  • 0 = student nie korzystał z pomocy korepetytora w przygotowaniu do egzaminu

Z wyniku regresji widzimy, że współczynnik regresji dla Tutora wynosi 8,34 . Oznacza to, że uczeń korzystający z korepetycji uzyskał na egzaminie średnio o 8,34 punktu więcej niż uczeń nie korzystający z korepetytora, przy założeniu, że zmienna predykcyjna Badane godziny pozostaje stała.

Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź również pod uwagę Studenta B, który uczy się przez 10 godzin i nie korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń A uzyska wynik egzaminu o 8,34 punktu wyższy niż uczeń B.

Wartość p tabeli regresji mówi nam, czy ten współczynnik regresji jest rzeczywiście statystycznie istotny, czy nie. Widzimy, że wartość p dla Tutora wynosi 0,138 , co nie jest statystycznie istotne na poziomie alfa 0,05. Oznacza to, że chociaż uczniowie korzystający z korepetycji radzili sobie lepiej na egzaminie, różnica ta mogła wynikać z przypadku.

Zinterpretuj wszystkie współczynniki na raz

Możemy użyć wszystkich współczynników z tabeli regresji, aby utworzyć następujące szacunkowe równanie regresji:

Oczekiwany wynik egzaminu = 48,56 + 2,03*(Godziny nauki) + 8,34*(Nauczyciel)

Uwaga : należy pamiętać, że zmienna predykcyjna „Nauczyciel” nie była istotna statystycznie na poziomie alfa 0,05, dlatego można usunąć ten predyktor z modelu i nie używać go w ostatecznym oszacowaniu równania regresji.

Korzystając z tego szacunkowego równania regresji, możemy przewidzieć ocenę końcową ucznia z egzaminu na podstawie całkowitej liczby godzin nauki oraz tego, czy korzystał on z korepetycji.

Przykładowo, student, który uczył się 10 godzin i korzystał z korepetycji, powinien otrzymać ocenę z egzaminu:

Oczekiwany wynik egzaminu = 48,56 + 2,03*(10) + 8,34*(1) = 77,2

Uwzględnianie korelacji przy interpretacji współczynników regresji

Należy pamiętać, że w modelu regresji zmienne predykcyjne mogą na siebie wpływać. Na przykład większość zmiennych predykcyjnych będzie przynajmniej w pewnym stopniu ze sobą powiązana (np. uczeń, który więcej się uczy, z większym prawdopodobieństwem skorzysta z pomocy korepetytora).

Oznacza to, że współczynniki regresji będą się zmieniać po dodaniu lub usunięciu różnych zmiennych predykcyjnych z modelu.

Dobrym sposobem sprawdzenia, czy korelacja między zmiennymi predykcyjnymi jest na tyle silna, aby poważnie wpłynąć na model regresji, jest sprawdzenie VIF między zmiennymi predykcyjnymi .

Dzięki temu dowiesz się, czy korelacja między zmiennymi predykcyjnymi jest problemem, który należy rozwiązać przed podjęciem decyzji o interpretacji współczynników regresji.

Jeśli uruchomisz prosty model regresji liniowej z jednym predyktorem, skorelowane zmienne predykcyjne nie będą stanowić problemu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *