Como calcular aic em r (incluindo exemplos)
O Critério de Informação de Akaike (AIC) é uma métrica usada para comparar o ajuste de modelos de regressão múltipla.
É calculado da seguinte forma:
AIC = 2K – 2 ln (L)
Ouro:
- K: O número de parâmetros do modelo. O valor padrão de K é 2, portanto, um modelo com apenas uma variável preditora terá um valor K de 2+1 = 3.
- ln (L) : A probabilidade logarítmica do modelo. A maioria dos softwares estatísticos pode calcular automaticamente esse valor para você.
O AIC foi projetado para encontrar o modelo que explica a maior variação nos dados, ao mesmo tempo que penaliza modelos que utilizam um número excessivo de parâmetros.
Depois de ajustar vários modelos de regressão, você pode comparar o valor AIC de cada modelo. Quanto menor o AIC, mais adequado é o modelo.
Para calcular o AIC de modelos de regressão múltipla em R, podemos usar a função aictab() do pacote AICcmodavg .
O exemplo a seguir mostra como usar esta função para calcular e interpretar o AIC para vários modelos de regressão em R.
Exemplo: calcular e interpretar AIC em R
Digamos que queremos ajustar três modelos diferentes de regressão linear múltipla usando variáveis do conjunto de dados mtcars .
Aqui estão as variáveis preditoras que usaremos em cada modelo:
- Variáveis preditoras no modelo 1: disp, hp, wt, qsec
- Variáveis preditoras no modelo 2: disp, qsec
- Variáveis preditoras no modelo 3: disp, wt
O código a seguir mostra como ajustar cada um desses modelos de regressão:
#fit three models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)
A seguir, colocaremos os modelos em uma lista e usaremos a função aictab() para calcular o AIC de cada modelo:
library (AICcmodavg) #define list of models models <- list(model1, model2, model3) #specify model names mod.names <- c('disp.hp.wt.qsec', 'disp.qsec', 'disp.wt') #calculate AIC of each model aictab(cand.set = models, modnames = mod.names) Model selection based on AICc: K AICc Delta_AICc AICcWt Cum.Wt LL disp.hp.wt.qsec 6 162.43 0.00 0.83 0.83 -73.53 available wt 4 165.65 3.22 0.17 1.00 -78.08 disp.qsec 4 173.32 10.89 0.00 1.00 -81.92
Veja como interpretar o resultado:
- K: O número de parâmetros no modelo.
- AICc: o valor AIC do modelo. O “c” minúsculo indica que o AIC foi calculado a partir do AIC corrigido para amostras pequenas.
- Delta_AICc: diferença entre o AIC do melhor modelo e o do modelo atual comparado.
- AICcWt: proporção do poder preditivo total que pode ser encontrado no modelo.
- Cum.Wt : A soma cumulativa dos pesos AIC.
- LL: A probabilidade logarítmica do modelo. Isso nos diz a probabilidade do modelo, dados os dados que usamos.
O modelo com o menor valor de AIC é sempre listado primeiro. A partir do resultado podemos ver que o seguinte modelo tem o menor valor de AIC e é, portanto, o modelo com melhor ajuste:
mpg = β 0 + β 1 (disp) + β 2 (hp) + β 3 (peso) + β 4 (qsec)
Uma vez identificado este modelo como o melhor, podemos prosseguir com o ajuste do modelo e analisar os resultados, incluindo o valor R-quadrado e os coeficientes beta, para determinar a relação exata entre o conjunto de variáveis preditivas e a variável resposta .
Recursos adicionais
Como realizar regressão linear simples em R
Como realizar regressão linear múltipla em R
Como calcular R-quadrado ajustado em R
Como calcular Malvas Cp em R