Jak obliczyć aic w r (w tym przykłady)
Kryterium informacyjne Akaike (AIC) to metryka używana do porównywania dopasowania modeli regresji wielokrotnej.
Oblicza się go w następujący sposób:
AIC = 2K – 2 ln (L)
Złoto:
- K: Liczba parametrów modelu. Domyślna wartość K wynosi 2, zatem model z tylko jedną zmienną predykcyjną będzie miał wartość K wynoszącą 2+1 = 3.
- ln (L) : Logarytm wiarygodności modelu. Większość programów statystycznych może automatycznie obliczyć tę wartość.
Celem AIC jest znalezienie modelu wyjaśniającego największe zróżnicowanie danych, przy jednoczesnym karaniu modeli wykorzystujących nadmierną liczbę parametrów.
Po dopasowaniu wielu modeli regresji można porównać wartość AIC każdego modelu. Im niższy AIC, tym bardziej odpowiedni model.
Aby obliczyć AIC modeli regresji wielokrotnej w R, możemy użyć funkcji aictab() z pakietu AICcmodavg .
Poniższy przykład pokazuje, jak używać tej funkcji do obliczania i interpretacji AIC dla różnych modeli regresji w R.
Przykład: oblicz i zinterpretuj AIC w R
Załóżmy, że chcemy dopasować trzy różne modele regresji liniowej wielokrotnej, używając zmiennych ze zbioru danych mtcars .
Oto zmienne predykcyjne, których będziemy używać w każdym modelu:
- Zmienne predykcyjne w modelu 1: disp, hp, wt, qsec
- Zmienne predykcyjne w modelu 2: disp, qsec
- Zmienne predykcyjne w modelu 3: disp, wt
Poniższy kod pokazuje, jak dopasować każdy z tych modeli regresji:
#fit three models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)
Następnie umieścimy modele na liście i użyjemy funkcji aictab() do obliczenia AIC każdego modelu:
library (AICcmodavg) #define list of models models <- list(model1, model2, model3) #specify model names mod.names <- c('disp.hp.wt.qsec', 'disp.qsec', 'disp.wt') #calculate AIC of each model aictab(cand.set = models, modnames = mod.names) Model selection based on AICc: K AICc Delta_AICc AICcWt Cum.Wt LL disp.hp.wt.qsec 6 162.43 0.00 0.83 0.83 -73.53 available wt 4 165.65 3.22 0.17 1.00 -78.08 disp.qsec 4 173.32 10.89 0.00 1.00 -81.92
Oto jak zinterpretować wynik:
- K: Liczba parametrów w modelu.
- AICc: wartość AIC modelu. Mała litera „c” wskazuje, że AIC obliczono na podstawie AIC skorygowanego dla małych próbek.
- Delta_AICc: różnica pomiędzy AIC najlepszego modelu i aktualnie porównywanego modelu.
- AICcWt: proporcja całkowitej mocy predykcyjnej, którą można znaleźć w modelu.
- Cum.Wt : Skumulowana suma wag AIC.
- LL: Logarytm wiarygodności modelu. To mówi nam, jak prawdopodobny jest model, biorąc pod uwagę dane, których użyliśmy.
Model z najniższą wartością AIC jest zawsze wyświetlany jako pierwszy. Z wyniku widać, że następujący model ma najniższą wartość AIC i dlatego jest najlepiej dopasowanym modelem:
mpg = β 0 + β 1 (disp) + β 2 (KM) + β 3 (masa) + β 4 (qs)
Gdy uznamy ten model za najlepszy, możemy przystąpić do jego dopasowywania i przeanalizować wyniki, w tym wartość R-kwadrat i współczynniki beta, aby określić dokładny związek pomiędzy zestawem zmiennych predykcyjnych azmienną odpowiedzi .
Dodatkowe zasoby
Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jak obliczyć skorygowany R-kwadrat w R
Jak obliczyć Cp Mallows w R