Co uważa się za dobrą wartość aic?


Kryterium informacyjne Akaike (AIC) to metryka używana do porównywania dopasowania różnych modeli regresji.

Oblicza się go w następujący sposób:

AIC = 2K – 2 ln (L)

Złoto:

  • K: Liczba parametrów modelu.
  • ln (L) : Logarytm wiarygodności modelu. To mówi nam, jak prawdopodobny jest model, biorąc pod uwagę dane.

Po dopasowaniu wielu modeli regresji można porównać wartość AIC każdego modelu. Model z najniższym AIC zapewnia najlepsze dopasowanie.

Pytanie, które uczniowie często zadają na temat AIC, brzmi: Jaka wartość AIC jest uważana za dobrą?

Prosta odpowiedź: nie ma wartości AIC, którą można uznać za „dobrą” lub „złą”, ponieważ po prostu używamy AIC jako sposobu porównywania modeli regresji. Model z najniższym AIC zapewnia najlepsze dopasowanie. Wartość bezwzględna wartości AIC nie jest istotna.

Na przykład, jeśli Model 1 ma wartość AIC 730,5, a Model 2 ma wartość AIC 456,3, wówczas Model 2 zapewnia lepsze dopasowanie. Wartości bezwzględne AIC nie są istotne.

Przydatne odniesienie na ten temat znajduje się w Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences na stronie 402:

Podobnie jak w przypadku prawdopodobieństwa, wartość bezwzględna AIC jest w dużej mierze bez znaczenia (określana przez dowolną stałą). Ponieważ stała ta zależy od danych, AIC można wykorzystać do porównania modeli dopasowanych do identycznych próbek.

Najlepszym modelem spośród wszystkich rozpatrywanych modeli wiarygodnych jest zatem ten, który ma najmniejszą wartość AIC (najmniejszą utratę informacji w porównaniu z modelem rzeczywistym).

Jak stwierdzono w instrukcji, wartość bezwzględna AIC nie jest istotna. Po prostu używamy wartości AIC, aby porównać dopasowanie modeli, a model z najniższą wartością AIC jest najlepszy.

Jak ustalić, czy model dobrze pasuje do zbioru danych

Wartość AIC jest użytecznym sposobem określenia, który model regresji najlepiej pasuje do zbioru danych z listy potencjalnych modeli, ale w rzeczywistości nie określa ilościowo , jak dobrze model pasuje do danych.

Na przykład określony model regresji może mieć najniższą wartość AIC spośród listy potencjalnych modeli, ale nadal może być modelem słabo dopasowanym.

Aby określić, czy model dobrze pasuje do zbioru danych, możemy skorzystać z dwóch następujących metryk:

  • Cp Mallowsa : Metryka określająca ilościowo stopień błędu systematycznego w modelach regresji.
  • Skorygowany R-kwadrat : proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić zmiennymi predykcyjnymi w modelu, skorygowana o liczbę zmiennych predykcyjnych w modelu.

Potencjalna strategia wyboru „najlepszego” modelu regresji spośród kilku potencjalnych modeli jest następująca:

  • Najpierw zidentyfikuj model z najniższą wartością AIC.
  • Następnie dopasuj ten model regresji do danych i oblicz Cp Mallowsa oraz skorygowany współczynnik R-kwadrat modelu, aby określić ilościowo, jak dobrze faktycznie pasuje on do danych.

Takie podejście pozwala zidentyfikować najlepiej dopasowany model i określić ilościowo, jak dobrze model faktycznie pasuje do danych.

Dodatkowe zasoby

Jak interpretować ujemne wartości AIC
Jak obliczyć AIC w R
Jak obliczyć AIC w Pythonie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *