Co to jest częściowy test f?


Częściowy test F służy do określenia, czy istnieje statystycznie istotna różnica między modelem regresji a zagnieżdżoną wersją tego samego modelu.

Model zagnieżdżony to po prostu model zawierający podzbiór zmiennych predykcyjnych w ogólnym modelu regresji.

Załóżmy na przykład, że mamy następujący model regresji z czterema zmiennymi predykcyjnymi:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Przykładem modelu zagnieżdżonego może być następujący model z tylko dwoma pierwotnymi zmiennymi predykcyjnymi:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Aby ustalić, czy te dwa modele znacząco się różnią, możemy przeprowadzić częściowy test F.

Częściowy test F: podstawy

Częściowy test F oblicza następującą statystykę testu F:

F = (( Zredukowany RSS – Pełny RSS)/p) / ( Pełny RSS /nk)

Złoto:

  • Zredukowany RSS : Pozostała suma kwadratów zredukowanego (tj. „zagnieżdżonego”) modelu.
  • RSS pełny : Pozostała suma kwadratów pełnego modelu.
  • p: liczba predyktorów usuniętych z pełnego modelu.
  • n: całkowita liczba obserwacji w zbiorze danych.
  • k: Liczba współczynników (w tym wyraz wolny) w pełnym modelu.

Należy zauważyć, że resztowa suma kwadratów będzie zawsze mniejsza dla pełnego modelu, ponieważ dodanie predyktorów zawsze spowoduje pewne zmniejszenie błędu.

Zatem częściowy test F zasadniczo sprawdza, czy grupa predyktorów usunięta z pełnego modelu jest rzeczywiście użyteczna i powinna zostać uwzględniona w pełnym modelu.

W teście tym wykorzystuje się następujące hipotezy zerowe i alternatywne:

H 0 : Wszystkie współczynniki usunięte z pełnego modelu wynoszą zero.

H A : Co najmniej jeden ze współczynników usuniętych z pełnego modelu jest niezerowy.

Jeśli wartość p odpowiadająca statystyce testu F jest poniżej pewnego poziomu istotności (np. 0,05), to możemy odrzucić hipotezę zerową i stwierdzić, że przynajmniej jeden ze współczynników usuniętych z pełnego modelu jest istotny.

Częściowy test F: przykład

W praktyce w celu wykonania częściowego testu F stosujemy następujące kroki:

1. Dopasuj pełny model regresji i oblicz RSS full .

2. Dopasuj zagnieżdżony model regresji i oblicz zredukowany RSS.

3. Wykonaj analizę ANOVA, aby porównać model pełny i zredukowany, co da statystykę testu F potrzebną do porównania modeli.

Na przykład poniższy kod pokazuje, jak dopasować następujące dwa modele regresji w języku R przy użyciu danych z wbudowanego zbioru danych mtcars :

Pełny model: mpg = β 0 + β 1 dostępny + β 2 carb + β 3 KM + β 4 cyl

Model: mpg = β 0 + β 1 dostępne + β 2 węglowodany

 #fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ available + carb
Model 2: mpg ~ disp + carb + hp + cyl
  Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82                           
2 27 238.71 2 16.113 0.9113 0.414

Z wyniku widzimy, że statystyka testu F ANOVA wynosi 0,9113 , a odpowiadająca jej wartość p wynosi 0,414 .

Ponieważ ta wartość p jest nie mniejsza niż 0,05, nie uda nam się odrzucić hipotezy zerowej. Oznacza to, że nie mamy wystarczających dowodów, aby stwierdzić, że którakolwiek ze zmiennych predykcyjnych hp lub cyl jest istotna statystycznie.

Innymi słowy, dodanie hp i cyl do modelu regresji nie poprawia znacząco dopasowania modelu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *