Jak interpretować wartości p w regresji liniowej (z przykładem)
W statystyce modele regresji liniowej służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
Za każdym razem, gdy przeprowadzasz analizę regresji za pomocą oprogramowania statystycznego, otrzymasz tabelę regresji podsumowującą wyniki modelu.
Dwie najważniejsze wartości w tabeli regresji to współczynniki regresji i odpowiadające im wartości p .
Wartości p informują, czy istnieje statystycznie istotna zależność pomiędzy każdą zmienną predykcyjną a zmienną odpowiedzi.
Poniższy przykład pokazuje, jak w praktyce interpretować wartości p modelu wielokrotnej regresji liniowej .
Przykład: Interpretacja wartości P w modelu regresji
Załóżmy, że chcemy dopasować model regresji przy użyciu następujących zmiennych:
Zmienne predykcyjne
- Całkowita liczba przestudiowanych godzin (od 0 do 20)
- Czy uczeń korzystał z korepetycji (tak czy nie)
Zmienna odpowiedzi
- Wynik egzaminu (od 0 do 100)
Chcemy zbadać związek między zmiennymi predykcyjnymi a zmienną odpowiedzi, aby dowiedzieć się, czy godziny nauki i korepetycji rzeczywiście mają znaczący wpływ na wyniki egzaminów.
Załóżmy, że przeprowadzamy analizę regresji i uzyskujemy następujący wynik:
Termin | Współczynnik | Standardowy błąd | Statystyki | Wartość P |
---|---|---|---|---|
Przechwycić | 48,56 | 14:32 | 3,39 | 0,002 |
Godziny nauki | 2.03 | 0,67 | 3.03 | 0,009 |
Korepetytor | 8.34 | 5,68 | 1,47 | 0,138 |
Oto jak zinterpretować wynik każdego składnika w modelu:
Interpretacja wartości P dla wyrazu wolnego
Pierwotny termin w tabeli regresji informuje nas o oczekiwanej średniej wartości zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne są równe zero.
W tym przykładzie współczynnik regresji dla początku jest równy 48,56 . Oznacza to, że dla studenta, który uczył się zero godzin , średni oczekiwany wynik egzaminu wynosi 48,56.
Wartość p wynosi 0,002 , co mówi nam, że pierwotny wyraz jest statystycznie różny od zera.
W praktyce na ogół nie przejmujemy się wartością p pierwotnego terminu. Nawet jeśli wartość p nie jest poniżej pewnego poziomu istotności (np. 0,05), nadal zachowalibyśmy pierwotny człon w modelu.
Interpretacja wartości P dla ciągłej zmiennej predykcyjnej
W tym przykładzie badane godziny są ciągłą zmienną predykcyjną o zakresie od 0 do 20 godzin.
Z wyniku regresji widać, że współczynnik regresji dla badanych godzin wynosi 2,03 . Oznacza to, że średnio każda dodatkowa godzina nauki wiąże się ze wzrostem o 2,03 punktu na egzaminie końcowym, przy założeniu, że zmienna predykcyjna Tutor pozostaje stała.
Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź także pod uwagę Studenta B, który uczy się przez 11 godzin i również korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń B uzyska na egzaminie o 2,03 punktu więcej niż uczeń A.
Odpowiednia wartość p wynosi 0,009 i jest statystycznie istotna przy poziomie alfa wynoszącym 0,05.
To mówi nam, że średnia zmiana wyników egzaminu na każdą dodatkową godzinę nauki jest statystycznie istotnie różna od zera .
Innymi słowy: przestudiowane godziny mają statystycznie istotny związek ze zmienną odpowiedzi na wynik egzaminu .
Interpretacja wartości P dla jakościowej zmiennej predykcyjnej
W tym przykładzie Tutor jest kategoryczną zmienną predykcyjną, która może przyjmować dwie różne wartości:
- 1 = uczeń korzystał z pomocy korepetytora w celu przygotowania się do egzaminu
- 0 = student nie korzystał z pomocy korepetytora w przygotowaniu do egzaminu
Z wyniku regresji widzimy, że współczynnik regresji dla Tutora wynosi 8,34 . Oznacza to, że uczeń korzystający z korepetytora uzyskał na egzaminie średnio o 8,34 punktu więcej niż uczeń niekorzystający z korepetytora, przy założeniu, że zmienna predykcyjna Badane godziny pozostaje stała.
Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź również pod uwagę Studenta B, który uczy się przez 10 godzin i nie korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń A uzyska wynik egzaminu o 8,34 punktu wyższy niż uczeń B.
Odpowiednia wartość p wynosi 0,138 , co nie jest statystycznie istotne przy poziomie alfa 0,05.
To mówi nam, że średnia zmiana wyników egzaminu na każdą dodatkową godzinę nauki nie różni się statystycznie istotnie od zera .
Inaczej mówiąc: zmienna predykcyjna Nauczyciela nie ma statystycznie istotnego związku ze zmienną odpowiedzi na wynik egzaminu .
Oznacza to, że chociaż uczniowie korzystający z korepetycji radzili sobie lepiej na egzaminie, różnica ta mogła wynikać ze szczęścia.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat regresji liniowej:
Jak interpretować test F dla ogólnej istotności w regresji
Pięć założeń wielokrotnej regresji liniowej
Zrozumienie testu t w regresji liniowej