Как рассчитать aic в sas (с примером)
Информационный критерий Акаике (AIC) — это показатель, используемый для сравнения соответствия множественных регрессионных моделей.
Он рассчитывается следующим образом:
АИК = 2К – 2 ln (L)
Золото:
- K: Количество параметров модели. Значение K по умолчанию равно 2, поэтому модель только с одной переменной-предиктором будет иметь значение K 2+1 = 3.
- ln (L) : Логарифмическое правдоподобие модели. Большинство статистических программ могут автоматически рассчитать это значение.
AIC предназначен для поиска модели, которая объясняет наибольшее разнообразие данных, одновременно наказывая модели, использующие чрезмерное количество параметров.
После того как вы подобрали несколько моделей регрессии, вы можете сравнить значение AIC каждой модели. Чем ниже AIC, тем более подходит модель.
В следующем примере показано, как рассчитать AIC для различных моделей регрессии в SAS.
Пример: Как рассчитать AIC в SAS
Предположим, мы хотим подогнать три разные модели множественной линейной регрессии , чтобы спрогнозировать, какую оценку на экзамене учащиеся получат в классе.
Вот переменные-предикторы, которые мы будем использовать в каждой модели:
- Переменные-предикторы в модели 1: часы, потраченные на обучение
- Переменные-предикторы в модели 2: прошлые практические экзамены
- Переменные-предикторы в Модели 3: часы, потраченные на учебу и сданные практические экзамены.
Сначала мы будем использовать следующий код, чтобы создать набор данных, содержащий эту информацию для 20 студентов:
/*create dataset*/ data exam_data; input hours prep_exams score; datalines ; 1 1 76 2 3 78 2 3 85 4 5 88 2 2 72 1 2 69 5 1 94 4 1 94 2 0 88 4 3 92 4 4 90 3 3 75 6 2 96 5 4 90 3 4 82 4 4 85 6 5 99 2 1 83 1 0 62 2 1 76 ; run ;
Далее мы воспользуемся proc reg для соответствия каждой из этих моделей регрессии и воспользуемся оператором select=adjrsq sse aic для расчета значений AIC для каждой модели:
/*fit multiple linear regression models and calculate AIC for each model*/ proc reg data =exam_data; model score = hours prep_exams / selection=adjrsq sse aic; run ;
Из результата мы можем увидеть значения AIC для каждой модели:
- AIC с часами в качестве предикторной переменной: 68,4537.
- AIC с часами и экзаменами в качестве предикторных переменных: 69,9507.
- AIC с экзаменами в качестве прогностической переменной: 91,4967.
Модель с наименьшим значением AIC — это модель, которая содержит только часы в качестве предикторной переменной.
Таким образом, мы заявляем, что следующая модель лучше всего соответствует данным:
Оценка = β 0 + β 1 (учебные часы)
Как только мы определим эту модель как лучшую, мы сможем адаптировать ее и проанализировать результаты, включая значение R-квадрата и бета-коэффициенты, чтобы определить точную взаимосвязь между учебными часами и оценками учащихся. ‘выпускной экзамен.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как выполнить простую линейную регрессию в SAS
Как выполнить множественную линейную регрессию в SAS
Как рассчитать R-квадрат в SAS
Как рассчитать RMSE в SAS