Jak czytać i interpretować tabelę regresji
W statystyce regresja jest techniką, którą można zastosować do analizy związku między zmiennymi predykcyjnymi a zmienną odpowiedzi.
Jeśli używasz oprogramowania (takiego jak R, SAS, SPSS itp.) do przeprowadzania analizy regresji, jako dane wyjściowe otrzymasz tabelę regresji podsumowującą wyniki regresji. Aby zrozumieć wyniki analizy regresji, ważne jest, aby wiedzieć, jak czytać tę tabelę.
W tym samouczku przedstawiono przykład analizy regresji i szczegółowo wyjaśniono, jak czytać i interpretować wyniki tabeli regresji.
Przykład regresji
Załóżmy, że mamy następujący zestaw danych, który pokazuje całkowitą liczbę przepracowanych godzin, całkowitą liczbę zdanych egzaminów przygotowawczych i oceny końcowe z egzaminu dla 12 różnych uczniów:
Aby przeanalizować związek pomiędzy przepracowanymi godzinami i zdanymi egzaminami przygotowawczymi a oceną z egzaminu końcowego uzyskaną przez studenta, przeprowadzamy wielokrotną regresję liniową, wykorzystując przepracowane godziny i egzaminy przygotowawcze jako zmienne predykcyjne oraz końcową ocenę z egzaminu jako zmienną odpowiedzi.
Otrzymujemy następujący wynik:
Badanie dopasowania modelu
W pierwszej części przedstawiono kilka różnych liczb mierzących dopasowanie modelu regresji, czyli to, jak dobrze model regresji jest w stanie „dopasować” do zbioru danych.
Oto jak interpretować każdą liczbę w tej sekcji:
Kilka Rs
To jest współczynnik korelacji . Mierzy siłę liniowej zależności między zmiennymi predykcyjnymi a zmienną odpowiedzi. R wielokrotność 1 oznacza idealną zależność liniową, podczas gdy R wielokrotność 0 oznacza brak zależności liniowej. Wielokrotność R to pierwiastek kwadratowy z R do kwadratu (patrz poniżej).
W tym przykładzie wielokrotność R wynosi 0,72855 , co wskazuje na dość silną liniową zależność pomiędzy godzinami nauki i egzaminami przygotowawczymi predyktorów a końcową oceną zmiennej odpowiedzi z egzaminu.
R-kwadrat
Często jest to zapisywane jako r2 i jest również znane jako współczynnik determinacji . Jest to proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić za pomocą zmiennej predykcyjnej.
Wartość R-kwadrat może mieścić się w zakresie od 0 do 1. Wartość 0 oznacza, że zmiennej odpowiedzi nie można w ogóle wyjaśnić za pomocą zmiennej predykcyjnej. Wartość 1 wskazuje, że zmienna odpowiedzi może być doskonale i bezbłędnie wyjaśniona przez zmienną predykcyjną.
W tym przykładzie współczynnik R-kwadrat wynosi 0,5307 , co wskazuje, że 53,07% rozbieżności w wynikach egzaminu końcowego można wyjaśnić liczbą godzin przestudiowanych i liczbą zaliczonych egzaminów praktycznych.
Powiązane: Jaka jest dobra wartość R-kwadrat?
Skorygowano R-kwadrat
Jest to zmodyfikowana wersja współczynnika R-kwadrat, skorygowana w oparciu o liczbę predyktorów w modelu. Jest to zawsze mniej niż R kwadrat. Skorygowany współczynnik R-kwadrat może być przydatny do porównywania wzajemnego dopasowania różnych modeli regresji.
W tym przykładzie skorygowany R-kwadrat wynosi 0,4265.
Standardowy błąd regresji
Błąd standardowy regresji to średnia odległość pomiędzy obserwowanymi wartościami a linią regresji. W tym przykładzie zaobserwowane wartości odbiegają średnio o 7,3267 jednostki od linii regresji.
Powiązane: Zrozumienie błędu standardowego regresji
Uwagi
Jest to po prostu liczba obserwacji w naszym zbiorze danych. W tym przykładzie całkowita liczba obserwacji wynosi 12 .
Testowanie ogólnego znaczenia modelu regresji
W poniższej sekcji przedstawiono stopnie swobody, sumę kwadratów, średnie kwadraty, statystykę F i ogólne znaczenie modelu regresji.
Oto jak interpretować każdą liczbę w tej sekcji:
Stopnie swobody regresji
Liczba ta jest równa: liczbie współczynników regresji – 1. W tym przykładzie mamy wyraz pierwotny i dwie zmienne predykcyjne, więc w sumie mamy trzy współczynniki regresji, co oznacza, że stopnie swobody regresji wynoszą 3 – 1 = 2 .
Całkowite stopnie swobody
Liczba ta jest równa: liczbie obserwacji – 1. W tym przykładzie mamy 12 obserwacji, więc całkowita liczba stopni swobody wynosi 12 – 1 = 11 .
Resztkowe stopnie swobody
Liczba ta jest równa: suma df – regresja df. W tym przykładzie pozostałe stopnie swobody wynoszą 11 – 2 = 9 .
Średnie kwadraty
Średnie kwadraty regresji oblicza się metodą regresji SS/regresji df. W tym przykładzie regresja MS = 546,53308 / 2 = 273,2665 .
Resztkowe średnie kwadraty oblicza się jako resztkową SS/resztową df. W tym przykładzie resztkowe MS = 483,1335 / 9 = 53,68151 .
Statystyka F
Statystykę f oblicza się jako regresję MS/resztę MS. Ta statystyka wskazuje, czy model regresji zapewnia lepsze dopasowanie do danych niż model, który nie zawiera zmiennych niezależnych.
Zasadniczo sprawdza, czy model regresji jako całość jest przydatny. Ogólnie rzecz biorąc, jeśli żadna ze zmiennych predykcyjnych w modelu nie jest istotna statystycznie, ogólna statystyka F również nie jest istotna statystycznie.
W tym przykładzie statystyka F wynosi 273,2665 / 53,68151 = 5,09 .
Znaczenie F (wartość P)
Ostatnia wartość w tabeli to wartość p powiązana ze statystyką F. Aby sprawdzić, czy ogólny model regresji jest istotny, można porównać wartość p z poziomem istotności; powszechnymi wyborami są .01, .05 i .10.
Jeśli wartość p jest poniżej poziomu istotności, istnieją wystarczające dowody, aby stwierdzić, że model regresji lepiej pasuje do danych niż model bez zmiennej predykcyjnej. Wynik ten jest pozytywny, ponieważ oznacza, że zmienne predykcyjne modelu faktycznie poprawiają dopasowanie modelu.
W tym przykładzie wartość p wynosi 0,033 , czyli jest poniżej zwykłego poziomu istotności wynoszącego 0,05. Oznacza to, że model regresji jako całość jest istotny statystycznie, to znaczy model lepiej dopasowuje się do danych niż model bez zmiennych predykcyjnych.
Testowanie ogólnego znaczenia modelu regresji
W ostatniej części przedstawiono oszacowania współczynników, błąd standardowy oszacowań, statystykę t, wartości p i przedziały ufności dla każdego składnika modelu regresji.
Oto jak interpretować każdą liczbę w tej sekcji:
Współczynniki
Współczynniki dają nam liczby potrzebne do napisania oszacowanego równania regresji:
y kapelusz = b 0 + b 1 x 1 + b 2 x 2 .
W tym przykładzie oszacowane równanie regresji wygląda następująco:
wynik egzaminu końcowego = 66,99 + 1,299 (godziny nauki) + 1,117 (egzaminy przygotowawcze)
Każdy indywidualny współczynnik interpretuje się jako średni wzrost zmiennej odpowiedzi na każdy jednojednostkowy wzrost danej zmiennej predykcyjnej, przy założeniu, że wszystkie pozostałe zmienne predykcyjne pozostają stałe. Na przykład za każdą dodatkową godzinę nauki oczekiwany średni wzrost wyniku z egzaminu końcowego wynosi 1299 punktów, przy założeniu, że liczba zdawanych egzaminów przygotowawczych pozostaje stała.
Przecinek interpretuje się jako oczekiwaną średnią ocen z egzaminu końcowego dla studenta studiującego w trybie zero godzin i nie przystępującego do egzaminów przygotowawczych. W tym przykładzie oczekuje się, że uczeń uzyska wynik 66,99, jeśli będzie uczył się przez zero godzin i nie przystąpi do egzaminów przygotowawczych. Należy zachować ostrożność podczas interpretacji punktu wyrazu wyniku regresji, ponieważ nie zawsze ma to sens.
Na przykład w niektórych przypadkach wyraz wolny może okazać się liczbą ujemną, co często nie ma oczywistej interpretacji. Nie oznacza to, że model jest błędny, oznacza to po prostu, że samo przechwycenie nie powinno być interpretowane jako mające jakiekolwiek znaczenie.
Błąd standardowy, statystyki t i wartości p
Błąd standardowy jest miarą niepewności wokół oszacowania współczynnika dla każdej zmiennej.
Statystyka t to po prostu współczynnik podzielony przez błąd standardowy. Na przykład statystyka t dla godzin nauki wynosi 1,299 / 0,417 = 3,117.
Następna kolumna pokazuje wartość p związaną ze statystyką t. Liczba ta mówi nam, czy dana zmienna odpowiedzi jest istotna w modelu. W tym przykładzie widzimy, że wartość p dla godzin nauki wynosi 0,012, a wartość p dla egzaminów przygotowawczych wynosi 0,304. Oznacza to, że w przeciwieństwie do egzaminów praktycznych , godziny nauki są istotnym czynnikiem prognostycznym oceny końcowej z egzaminu.
Przedział ufności dla oszacowań współczynników
Dwie ostatnie kolumny tabeli przedstawiają dolną i górną granicę 95% przedziału ufności dla oszacowań współczynników.
Na przykład szacunkowy współczynnik godzin nauki wynosi 1,299, ale szacunki te są obarczone pewną niepewnością. Nigdy nie możemy być pewni, czy jest to dokładny współczynnik. Zatem 95% przedział ufności daje nam zakres prawdopodobnych wartości prawdziwego współczynnika.
W tym przypadku 95% przedział ufności dla godzin nauki wynosi (0,356; 2,24). Należy zwrócić uwagę, że ten przedział ufności nie zawiera cyfry „0”, co oznacza, że mamy całkowitą pewność, że prawdziwa wartość współczynnika godzin nauki jest różna od zera, czyli liczbą dodatnią.
Natomiast 95% przedział ufności dla egzaminów przygotowawczych wynosi (-1,201, 3,436). Należy pamiętać, że ten przedział ufności zawiera cyfrę „0”, co oznacza, że prawdziwa wartość współczynnika egzaminów przygotowawczych może wynosić zero, czyli nie ma znaczenia w przewidywaniu wyników egzaminu maturalnego.
Dodatkowe zasoby
Zrozumienie hipotezy zerowej dla regresji liniowej
Zrozumienie testu F dla ogólnego znaczenia w regresji
Jak raportować wyniki regresji