Co to jest selekcja bezpośrednia? (definicja – przykład)


W statystyce selekcja krokowa to procedura, którą możemy zastosować do skonstruowania modelu regresji ze zbioru zmiennych predykcyjnych poprzez stopniowe wprowadzanie i usuwanie predyktorów w modelu, aż do momentu, gdy nie będzie już statystycznie uzasadnionego powodu do wprowadzenia lub usuń więcej.

Celem selekcji krokowej jest utworzenie modelu regresji obejmującego wszystkie zmienne predykcyjne, które są statystycznie istotnie powiązane ze zmienną odpowiedzi .

Jedną z najczęściej stosowanych metod selekcji krok po kroku jest selekcja bezpośrednia , która działa w następujący sposób:

Krok 1: Dopasuj model regresji zawierający wyłącznie wyraz wolny bez zmiennych predykcyjnych. Oblicz wartość AIC * dla modelu.

Krok 2: Dopasuj wszystkie możliwe modele regresji z jednym predyktorem. Zidentyfikuj model, który wygenerował najniższe AIC, a także miał statystycznie istotne zmniejszenie AIC w porównaniu z modelem obejmującym wyłącznie przechwytywanie.

Krok 3: Dopasuj wszystkie modele regresji do dwóch możliwych predyktorów. Zidentyfikuj model, który wygenerował najniższe AIC, a także miał statystycznie istotne zmniejszenie AIC w porównaniu z modelem z jednym predyktorem.

Powtarzaj ten proces, aż dopasowanie modelu regresji z większą liczbą zmiennych predykcyjnych nie będzie już prowadzić do statystycznie istotnego zmniejszenia AIC.

* Istnieje kilka wskaźników, których można użyć do obliczenia dobroci dopasowania modelu regresji, w tym błąd przewidywania w ramach walidacji krzyżowej, Cp, BIC, AIC lub skorygowany R2 . W poniższym przykładzie zdecydowaliśmy się na użycie AIC.

Poniższy przykład pokazuje, jak przeprowadzić bezpośredni wybór w R.

Przykład: bezpośredni wybór w R

W tym przykładzie użyjemy zestawu danych mtcars wbudowanego w R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Dopasujemy model regresji liniowej, wykorzystując mpg (mile na galon) jako zmienną odpowiedzi i pozostałych 10 zmiennych w zestawie danych jako potencjalne zmienne predykcyjne.

Poniższy kod pokazuje, jak krok po kroku dokonać wyboru:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

Oto jak interpretować wyniki:

Najpierw dopasowujemy model tylko przechwytujący. Model ten miał AIC wynoszący 115,94345 .

Następnie dopasowujemy wszystkie możliwe modele do predyktora. W modelu, który generował najniższe AIC, a także charakteryzował się statystycznie istotną redukcją AIC w porównaniu z modelem zawierającym wyłącznie przechwytywanie, zastosowano predyktor wt . Model ten miał AIC 73,21736 .

Następnie dopasowujemy wszystkie możliwe modele za pomocą dwóch predyktorów. Model, który wygenerował najniższą wartość AIC, a także charakteryzował się statystycznie istotną redukcją AIC w porównaniu z modelem z pojedynczym predyktorem, dodał predyktor cyl . Model ten miał AIC 63,19800 .

Następnie dopasowujemy wszystkie możliwe modele do trzech predyktorów. Model, który generował najniższe AIC i który również charakteryzował się statystycznie istotną redukcją AIC w porównaniu z modelem z dwoma predyktorami, dodał predyktor hp . Model ten miał AIC wynoszący 62,66456 .

Następnie dopasowujemy wszystkie możliwe modele do czterech predyktorów. Okazało się, że żaden z tych modeli nie spowodował znaczącej redukcji AIC, więc przerwaliśmy procedurę.

Ostateczny model zatem wygląda następująco:

mpg = 38,75 – 3,17*waga – 0,94*cyl – 0,02*hip

Okazuje się, że próba dodania do modelu większej liczby zmiennych predykcyjnych nie prowadzi do istotnego statystycznie zmniejszenia AIC.

Zatem dochodzimy do wniosku, że najlepszym modelem jest ten, w którym występują trzy zmienne predykcyjne: wt, cyl i hp.

Uwaga dotycząca korzystania z AIC

W poprzednim przykładzie zdecydowaliśmy się użyć AIC jako miernika do oceny dopasowania różnych modeli regresji.

AIC oznacza kryterium informacyjne Akaike i jest obliczane w następujący sposób:

AIC = 2K – 2 ln (L)

Złoto:

  • K: Liczba parametrów modelu.
  • ln (L) : Logarytm wiarygodności modelu. To mówi nam, jak prawdopodobne jest, że model opiera się na danych.

Istnieją jednak inne wskaźniki, które można wykorzystać do oceny dopasowania modeli regresji, w tym błąd przewidywania w ramach walidacji krzyżowej, Cp, BIC, AIC lub skorygowany R2 .

Na szczęście większość programów statystycznych pozwala określić, jakiej metryki chcesz użyć przy bezpośrednim wyborze.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat modeli regresji:

Przewodnik po wielowspółliniowości i VIF w regresji
Co uważa się za dobrą wartość AIC?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *