Prosty przewodnik po zrozumieniu testu f ogólnego znaczenia w regresji
W tym samouczku wyjaśniono, jak zidentyfikować statystykę F w wynikach tabeli regresji, a także jak interpretować tę statystykę i odpowiadającą jej wartość p.
Zrozumienie testu ogólnego znaczenia F
Test F ogólnego znaczenia w regresji to test mający na celu określenie, czy model regresji liniowej zapewnia lepsze dopasowanie do zbioru danych niż model bez zmiennych predykcyjnych.
Test ogólnej istotności F opiera się na dwóch założeniach:
Hipoteza zerowa ( H0 ): Model bez zmiennych predykcyjnych (zwany także modelem tylko wyrazu wolnego ) pasuje do danych tak samo jak Twój model regresji.
Hipoteza alternatywna ( HA ): Twój model regresji lepiej pasuje do danych niż model oparty wyłącznie na przecięciach.
Kiedy dopasujesz model regresji do zbioru danych, jako wynik otrzymasz tabelę regresji , która wyświetli statystykę F wraz z odpowiednią wartością p dla tej statystyki F.
Jeśli wartość p jest mniejsza niż wybrany poziom istotności ( najczęściej wybierane wartości to 0,01, 0,05 i 0,10 ), wówczas masz wystarczające dowody, aby stwierdzić, że Twój model regresji pasuje do danych tylko jako model oryginalny. Model.
Przykład: test F w regresji
Załóżmy, że mamy następujący zestaw danych, który pokazuje całkowitą liczbę przepracowanych godzin, całkowitą liczbę zdanych egzaminów przygotowawczych i oceny końcowe z egzaminu dla 12 różnych uczniów:
Aby przeanalizować związek pomiędzy przepracowanymi godzinami i zdanymi egzaminami przygotowawczymi a oceną z egzaminu końcowego uzyskaną przez studenta, przeprowadzamy wielokrotną regresję liniową, wykorzystując przepracowane godziny i egzaminy przygotowawcze jako zmienne predykcyjne oraz końcową ocenę z egzaminu jako zmienną odpowiedzi.
Otrzymujemy następujący wynik:
Na podstawie tych wyników skupimy się na statystyce F podanej w tabeli ANOVA, jak również na wartości p tej statystyki F, która jest oznaczona w tabeli jako Istotność F. Jako poziom istotności wybierzemy 0,05.
Statystyka F: 5,090515
Wartość p: 0,0332
Uwaga techniczna: Statystykę F oblicza się jako regresję MS podzieloną przez resztę MS. W tym przypadku regresja MS / reszta MS = 273,2665 / 53,68151 = 5,090515 .
Ponieważ wartość p jest poniżej poziomu istotności, możemy stwierdzić, że nasz model regresji pasuje do danych lepiej niż model zawierający wyłącznie wyraz wolny.
W kontekście tego konkretnego problemu oznacza to, że użycie w modelu zmiennych predykcyjnych godzin nauki i egzaminów przygotowawczych pozwala nam lepiej dopasować dane, niż gdybyśmy je pominęli i po prostu użyli modelu przechwytującego w sposób unikalny.
Uwagi dotyczące interpretacji testu F ogólnej istotności
Ogólnie rzecz biorąc, jeśli żadna ze zmiennych predykcyjnych nie jest istotna statystycznie, ogólny test F również nie będzie istotny statystycznie.
Jednakże w niektórych przypadkach może tak nie być, ponieważ test F dla ogólnej istotności sprawdza, czy wszystkie zmienne predykcyjne są łącznie istotne, podczas gdy test T dla istotności dla każdej indywidualnej zmiennej predykcyjnej po prostu sprawdza, czy każda zmienna predykcyjna jest istotna. indywidualnie istotne.
Zatem test F określa, czy wszystkie zmienne predykcyjne są łącznie istotne, czy nie.
Możliwe jest, że każda zmienna predykcyjna nie jest istotna, a mimo to test F wskazuje, że wszystkie zmienne predykcyjne łącznie są istotne.
Uwaga techniczna: Ogólnie rzecz biorąc, im więcej zmiennych predykcyjnych znajduje się w modelu, tym większe prawdopodobieństwo, że statystyka F i odpowiadająca jej wartość p będą statystycznie istotne.
Kolejną metryką, którą prawdopodobnie zobaczysz w wynikach regresji, jest R-kwadrat , który mierzy siłę liniowej zależności między zmiennymi predykcyjnymi a zmienną odpowiedzi.
Chociaż R-kwadrat może dać wyobrażenie o stopniu, w jakim zmienne predykcyjne są silnie powiązane ze zmienną odpowiedzi, nie zapewnia formalnego testu statystycznego dla tej zależności.
Właśnie dlatego test F jest przydatny, ponieważ jest formalnym testem statystycznym. Dodatkowo, jeśli ogólny test F jest istotny, można stwierdzić, że R-kwadrat nie wynosi zero i że korelacja między zmiennymi predykcyjnymi a zmienną odpowiedzi jest istotna statystycznie.
Dodatkowe zasoby
Poniższe tutoriale wyjaśniają, jak interpretować inne popularne wartości w modelach regresji:
Jak czytać i interpretować tabelę regresji
Zrozumienie błędu standardowego regresji
Jaka jest dobra wartość R-kwadrat?