Como calcular aic em sas (com exemplo)
O Critério de Informação de Akaike (AIC) é uma métrica usada para comparar o ajuste de modelos de regressão múltipla.
É calculado da seguinte forma:
AIC = 2K – 2 ln (L)
Ouro:
- K: O número de parâmetros do modelo. O valor padrão de K é 2, portanto, um modelo com apenas uma variável preditora terá um valor K de 2+1 = 3.
- ln (L) : A probabilidade logarítmica do modelo. A maioria dos softwares estatísticos pode calcular automaticamente esse valor para você.
O AIC foi projetado para encontrar o modelo que explica a maior variação nos dados, ao mesmo tempo que penaliza modelos que utilizam um número excessivo de parâmetros.
Depois de ajustar vários modelos de regressão, você pode comparar o valor AIC de cada modelo. Quanto menor o AIC, mais adequado é o modelo.
O exemplo a seguir mostra como calcular o AIC para diferentes modelos de regressão no SAS.
Exemplo: Como calcular AIC no SAS
Suponha que queiramos ajustar três modelos diferentes de regressão linear múltipla para prever a nota do exame que os alunos obterão em uma aula.
Aqui estão as variáveis preditoras que usaremos em cada modelo:
- Variáveis preditoras no modelo 1: horas de estudo
- Variáveis preditoras no modelo 2: exames práticos anteriores
- Variáveis preditoras do Modelo 3: horas de estudo e exames práticos realizados
Primeiro, usaremos o seguinte código para criar um conjunto de dados contendo essas informações para 20 alunos:
/*create dataset*/ data exam_data; input hours prep_exams score; datalines ; 1 1 76 2 3 78 2 3 85 4 5 88 2 2 72 1 2 69 5 1 94 4 1 94 2 0 88 4 3 92 4 4 90 3 3 75 6 2 96 5 4 90 3 4 82 4 4 85 6 5 99 2 1 83 1 0 62 2 1 76 ; run ;
A seguir, usaremos proc reg para ajustar cada um desses modelos de regressão e usaremos a instrução selection=adjrsq sse aic para calcular os valores de AIC para cada modelo:
/*fit multiple linear regression models and calculate AIC for each model*/ proc reg data =exam_data; model score = hours prep_exams / selection=adjrsq sse aic; run ;
Pelo resultado podemos ver os valores de AIC para cada modelo:
- AIC com horas como variável preditora: 68,4537
- AIC com horas e exames como variáveis preditoras: 69,9507
- AIC com exames como variável preditiva: 91,4967
O modelo com menor valor de AIC é aquele que contém apenas horas como variável preditora.
Assim, declaramos que o seguinte modelo melhor se ajusta aos dados:
Pontuação = β 0 + β 1 (horas estudadas)
Uma vez identificado este modelo como o melhor, podemos ajustá-lo e analisar os resultados, incluindo o valor R-quadrado e os coeficientes beta, para determinar a relação exata entre as horas estudadas e a nota do aluno. ‘exame final.
Recursos adicionais
Os tutoriais a seguir explicam como executar outras tarefas comuns no SAS:
Como realizar regressão linear simples no SAS
Como realizar regressão linear múltipla no SAS
Como calcular R-quadrado no SAS
Como calcular o RMSE no SAS