Prosty przewodnik po zrozumieniu testu f ogólnego znaczenia w regresji


W tym samouczku wyjaśniono, jak zidentyfikować statystykę F w wynikach tabeli regresji, a także jak interpretować tę statystykę i odpowiadającą jej wartość p.

Zrozumienie testu ogólnego znaczenia F

Test F ogólnego znaczenia w regresji to test mający na celu określenie, czy model regresji liniowej zapewnia lepsze dopasowanie do zbioru danych niż model bez zmiennych predykcyjnych.

Test ogólnej istotności F opiera się na dwóch założeniach:

Hipoteza zerowa ( H0 ): Model bez zmiennych predykcyjnych (zwany także modelem tylko wyrazu wolnego ) pasuje do danych tak samo jak Twój model regresji.

Hipoteza alternatywna ( HA ): Twój model regresji lepiej pasuje do danych niż model oparty wyłącznie na przecięciach.

Kiedy dopasujesz model regresji do zbioru danych, jako wynik otrzymasz tabelę regresji , która wyświetli statystykę F wraz z odpowiednią wartością p dla tej statystyki F.

Jeśli wartość p jest mniejsza niż wybrany poziom istotności ( najczęściej wybierane wartości to 0,01, 0,05 i 0,10 ), wówczas masz wystarczające dowody, aby stwierdzić, że Twój model regresji pasuje do danych tylko jako model oryginalny. Model.

Przykład: test F w regresji

Załóżmy, że mamy następujący zestaw danych, który pokazuje całkowitą liczbę przepracowanych godzin, całkowitą liczbę zdanych egzaminów przygotowawczych i oceny końcowe z egzaminu dla 12 różnych uczniów:

Aby przeanalizować związek pomiędzy przepracowanymi godzinami i zdanymi egzaminami przygotowawczymi a oceną z egzaminu końcowego uzyskaną przez studenta, przeprowadzamy wielokrotną regresję liniową, wykorzystując przepracowane godziny i egzaminy przygotowawcze jako zmienne predykcyjne oraz końcową ocenę z egzaminu jako zmienną odpowiedzi.

Otrzymujemy następujący wynik:

Na podstawie tych wyników skupimy się na statystyce F podanej w tabeli ANOVA, jak również na wartości p tej statystyki F, która jest oznaczona w tabeli jako Istotność F. Jako poziom istotności wybierzemy 0,05.

Statystyka F: 5,090515

Wartość p: 0,0332

Uwaga techniczna: Statystykę F oblicza się jako regresję MS podzieloną przez resztę MS. W tym przypadku regresja MS / reszta MS = 273,2665 / 53,68151 = 5,090515 .

Ponieważ wartość p jest poniżej poziomu istotności, możemy stwierdzić, że nasz model regresji pasuje do danych lepiej niż model zawierający wyłącznie wyraz wolny.

W kontekście tego konkretnego problemu oznacza to, że użycie w modelu zmiennych predykcyjnych godzin nauki i egzaminów przygotowawczych pozwala nam lepiej dopasować dane, niż gdybyśmy je pominęli i po prostu użyli modelu przechwytującego w sposób unikalny.

Uwagi dotyczące interpretacji testu F ogólnej istotności

Ogólnie rzecz biorąc, jeśli żadna ze zmiennych predykcyjnych nie jest istotna statystycznie, ogólny test F również nie będzie istotny statystycznie.

Jednakże w niektórych przypadkach może tak nie być, ponieważ test F dla ogólnej istotności sprawdza, czy wszystkie zmienne predykcyjne są łącznie istotne, podczas gdy test T dla istotności dla każdej indywidualnej zmiennej predykcyjnej po prostu sprawdza, czy każda zmienna predykcyjna jest istotna. indywidualnie istotne.

Zatem test F określa, czy wszystkie zmienne predykcyjne są łącznie istotne, czy nie.

Możliwe jest, że każda zmienna predykcyjna nie jest istotna, a mimo to test F wskazuje, że wszystkie zmienne predykcyjne łącznie są istotne.

Uwaga techniczna: Ogólnie rzecz biorąc, im więcej zmiennych predykcyjnych znajduje się w modelu, tym większe prawdopodobieństwo, że statystyka F i odpowiadająca jej wartość p będą statystycznie istotne.

Kolejną metryką, którą prawdopodobnie zobaczysz w wynikach regresji, jest R-kwadrat , który mierzy siłę liniowej zależności między zmiennymi predykcyjnymi a zmienną odpowiedzi.

Chociaż R-kwadrat może dać wyobrażenie o stopniu, w jakim zmienne predykcyjne są silnie powiązane ze zmienną odpowiedzi, nie zapewnia formalnego testu statystycznego dla tej zależności.

Właśnie dlatego test F jest przydatny, ponieważ jest formalnym testem statystycznym. Dodatkowo, jeśli ogólny test F jest istotny, można stwierdzić, że R-kwadrat nie wynosi zero i że korelacja między zmiennymi predykcyjnymi a zmienną odpowiedzi jest istotna statystycznie.

Dodatkowe zasoby

Poniższe tutoriale wyjaśniają, jak interpretować inne popularne wartości w modelach regresji:

Jak czytać i interpretować tabelę regresji
Zrozumienie błędu standardowego regresji
Jaka jest dobra wartość R-kwadrat?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *