Co to jest selekcja wsteczna? (definicja – przykład)
W statystyce selekcja krokowa to procedura, którą możemy zastosować do skonstruowania modelu regresji ze zbioru zmiennych predykcyjnych poprzez stopniowe wprowadzanie i usuwanie predyktorów w modelu, aż do momentu, gdy nie będzie już statystycznie uzasadnionego powodu do wprowadzenia lub usuń więcej.
Celem selekcji krokowej jest utworzenie modelu regresji obejmującego wszystkie zmienne predykcyjne, które są statystycznie istotnie powiązane ze zmienną odpowiedzi .
Jedną z najczęściej stosowanych metod selekcji krok po kroku jest selekcja wsteczna , która działa w następujący sposób:
Krok 1: Dopasuj model regresji, używając wszystkich zmiennych predykcyjnych p . Oblicz wartość AIC * dla modelu.
Krok 2: Usuń zmienną predykcyjną, która powoduje największą redukcję AIC, a także powoduje statystycznie istotną redukcję AIC w porównaniu z modelem ze wszystkimi p zmiennymi predykcyjnymi.
Krok 3: Usuń zmienną predykcyjną, która powoduje największą redukcję AIC, a także powoduje statystycznie istotną redukcję AIC w porównaniu z modelem ze zmiennymi predykcyjnymi p-1 .
Powtarzaj proces do momentu, aż usunięcie jakichkolwiek zmiennych predykcyjnych nie będzie już prowadzić do statystycznie istotnego zmniejszenia AIC.
* Istnieje kilka wskaźników, których można użyć do obliczenia dobroci dopasowania modelu regresji, w tym błąd przewidywania w ramach walidacji krzyżowej, Cp, BIC, AIC lub skorygowany R2 . W poniższym przykładzie zdecydowaliśmy się na użycie AIC.
Poniższy przykład pokazuje, jak wykonać zaznaczenie wstecz w R.
Przykład: selekcja wstecz w R
W tym przykładzie użyjemy zestawu danych mtcars wbudowanego w R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Dopasujemy model regresji liniowej, wykorzystując mpg (mile na galon) jako zmienną odpowiedzi i pozostałych 10 zmiennych w zestawie danych jako potencjalne zmienne predykcyjne.
Poniższy kod pokazuje, jak cofnąć się:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Oto jak interpretować wyniki:
Najpierw dopasowujemy model za pomocą 10 zmiennych predykcyjnych i obliczamy AIC modelu.
Następnie usunęliśmy zmienną ( cyl ), która spowodowała największą redukcję AIC, a także uzyskaliśmy statystycznie istotną redukcję AIC w porównaniu z modelem 10 zmiennych predykcyjnych.
Następnie usunęliśmy zmienną ( vs ), która doprowadziła do największej redukcji AIC, a także uzyskaliśmy statystycznie istotną redukcję AIC w porównaniu z modelem zmiennych predykcyjnych z 9 predyktorami.
Następnie usunęliśmy zmienną ( węglowodany ), która spowodowała największą redukcję AIC, a także uzyskaliśmy statystycznie istotną redukcję AIC w porównaniu z modelem zmiennych 8-predykcyjnych.
Powtarzaliśmy ten proces do momentu usunięcia jakiejkolwiek zmiennej, która nie powodowała już statystycznie istotnego zmniejszenia AIC.
Ostateczny model wygląda następująco:
mpg = 9,62 – 3,92*waga + 1,23*qs + 2,94*am
Uwaga dotycząca korzystania z AIC
W poprzednim przykładzie zdecydowaliśmy się użyć AIC jako metryki do oceny dopasowania różnych modeli regresji.
AIC oznacza kryterium informacyjne Akaike i jest obliczane w następujący sposób:
AIC = 2K – 2 ln (L)
Złoto:
- K: Liczba parametrów modelu.
- ln (L) : Logarytm wiarygodności modelu. To mówi nam o prawdopodobieństwie modelu na podstawie danych.
Istnieją jednak inne wskaźniki, które można wykorzystać do oceny dopasowania modeli regresji, w tym błąd przewidywania w ramach walidacji krzyżowej, Cp, BIC, AIC lub skorygowany R2 .
Na szczęście większość programów statystycznych pozwala określić, jakiego wskaźnika chcesz użyć podczas retrospektywnego przeglądu.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat modeli regresji:
Wprowadzenie do selekcji bezpośredniej
Przewodnik po wielowspółliniowości i VIF w regresji
Co uważa się za dobrą wartość AIC?