Jak interpretować wartości p w regresji liniowej (z przykładem)


W statystyce modele regresji liniowej służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .

Za każdym razem, gdy przeprowadzasz analizę regresji za pomocą oprogramowania statystycznego, otrzymasz tabelę regresji podsumowującą wyniki modelu.

Dwie najważniejsze wartości w tabeli regresji to współczynniki regresji i odpowiadające im wartości p .

Wartości p informują, czy istnieje statystycznie istotna zależność pomiędzy każdą zmienną predykcyjną a zmienną odpowiedzi.

Poniższy przykład pokazuje, jak w praktyce interpretować wartości p modelu wielokrotnej regresji liniowej .

Przykład: Interpretacja wartości P w modelu regresji

Załóżmy, że chcemy dopasować model regresji przy użyciu następujących zmiennych:

Zmienne predykcyjne

  • Całkowita liczba przestudiowanych godzin (od 0 do 20)
  • Czy uczeń korzystał z korepetycji (tak czy nie)

Zmienna odpowiedzi

  • Wynik egzaminu (od 0 do 100)

Chcemy zbadać związek między zmiennymi predykcyjnymi a zmienną odpowiedzi, aby dowiedzieć się, czy godziny nauki i korepetycji rzeczywiście mają znaczący wpływ na wyniki egzaminów.

Załóżmy, że przeprowadzamy analizę regresji i uzyskujemy następujący wynik:

Termin Współczynnik Standardowy błąd Statystyki Wartość P
Przechwycić 48,56 14:32 3,39 0,002
Godziny nauki 2.03 0,67 3.03 0,009
Korepetytor 8.34 5,68 1,47 0,138

Oto jak zinterpretować wynik każdego składnika w modelu:

Interpretacja wartości P dla wyrazu wolnego

Pierwotny termin w tabeli regresji informuje nas o oczekiwanej średniej wartości zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne są równe zero.

W tym przykładzie współczynnik regresji dla początku jest równy 48,56 . Oznacza to, że dla studenta, który uczył się zero godzin , średni oczekiwany wynik egzaminu wynosi 48,56.

Wartość p wynosi 0,002 , co mówi nam, że pierwotny wyraz jest statystycznie różny od zera.

W praktyce na ogół nie przejmujemy się wartością p pierwotnego terminu. Nawet jeśli wartość p nie jest poniżej pewnego poziomu istotności (np. 0,05), nadal zachowalibyśmy pierwotny człon w modelu.

Interpretacja wartości P dla ciągłej zmiennej predykcyjnej

W tym przykładzie badane godziny są ciągłą zmienną predykcyjną o zakresie od 0 do 20 godzin.

Z wyniku regresji widać, że współczynnik regresji dla badanych godzin wynosi 2,03 . Oznacza to, że średnio każda dodatkowa godzina nauki wiąże się ze wzrostem o 2,03 punktu na egzaminie końcowym, przy założeniu, że zmienna predykcyjna Tutor pozostaje stała.

Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź także pod uwagę Studenta B, który uczy się przez 11 godzin i również korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń B uzyska na egzaminie o 2,03 punktu więcej niż uczeń A.

Odpowiednia wartość p wynosi 0,009 i jest statystycznie istotna przy poziomie alfa wynoszącym 0,05.

To mówi nam, że średnia zmiana wyników egzaminu na każdą dodatkową godzinę nauki jest statystycznie istotnie różna od zera .

Innymi słowy: przestudiowane godziny mają statystycznie istotny związek ze zmienną odpowiedzi na wynik egzaminu .

Interpretacja wartości P dla jakościowej zmiennej predykcyjnej

W tym przykładzie Tutor jest kategoryczną zmienną predykcyjną, która może przyjmować dwie różne wartości:

  • 1 = uczeń korzystał z pomocy korepetytora w celu przygotowania się do egzaminu
  • 0 = student nie korzystał z pomocy korepetytora w przygotowaniu do egzaminu

Z wyniku regresji widzimy, że współczynnik regresji dla Tutora wynosi 8,34 . Oznacza to, że uczeń korzystający z korepetytora uzyskał na egzaminie średnio o 8,34 punktu więcej niż uczeń niekorzystający z korepetytora, przy założeniu, że zmienna predykcyjna Badane godziny pozostaje stała.

Weźmy na przykład pod uwagę ucznia A, który uczy się przez 10 godzin i korzysta z korepetycji. Weź również pod uwagę Studenta B, który uczy się przez 10 godzin i nie korzysta z korepetycji. Zgodnie z wynikami naszej regresji oczekuje się, że uczeń A uzyska wynik egzaminu o 8,34 punktu wyższy niż uczeń B.

Odpowiednia wartość p wynosi 0,138 , co nie jest statystycznie istotne przy poziomie alfa 0,05.

To mówi nam, że średnia zmiana wyników egzaminu na każdą dodatkową godzinę nauki nie różni się statystycznie istotnie od zera .

Inaczej mówiąc: zmienna predykcyjna Nauczyciela nie ma statystycznie istotnego związku ze zmienną odpowiedzi na wynik egzaminu .

Oznacza to, że chociaż uczniowie korzystający z korepetycji radzili sobie lepiej na egzaminie, różnica ta mogła wynikać ze szczęścia.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat regresji liniowej:

Jak interpretować test F dla ogólnej istotności w regresji
Pięć założeń wielokrotnej regresji liniowej
Zrozumienie testu t w regresji liniowej

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *