Jak obliczyć aic w sas (z przykładem)
Kryterium informacyjne Akaike (AIC) to metryka używana do porównywania dopasowania modeli regresji wielokrotnej.
Oblicza się go w następujący sposób:
AIC = 2K – 2 ln (L)
Złoto:
- K: Liczba parametrów modelu. Domyślna wartość K wynosi 2, zatem model z tylko jedną zmienną predykcyjną będzie miał wartość K wynoszącą 2+1 = 3.
- ln (L) : Logarytm wiarygodności modelu. Większość programów statystycznych może automatycznie obliczyć tę wartość.
Celem AIC jest znalezienie modelu wyjaśniającego największe zróżnicowanie danych, przy jednoczesnym karaniu modeli wykorzystujących nadmierną liczbę parametrów.
Po dopasowaniu wielu modeli regresji można porównać wartość AIC każdego modelu. Im niższy AIC, tym bardziej odpowiedni model.
Poniższy przykład pokazuje, jak obliczyć AIC dla różnych modeli regresji w SAS.
Przykład: Jak obliczyć AIC w SAS
Załóżmy, że chcemy dopasować trzy różne modele wielokrotnej regresji liniowej, aby przewidzieć, jaką ocenę osiągną uczniowie z egzaminu na zajęciach.
Oto zmienne predykcyjne, których będziemy używać w każdym modelu:
- Zmienne predykcyjne w modelu 1: godziny spędzone na nauce
- Zmienne predykcyjne w modelu 2: dotychczasowe egzaminy praktyczne
- Zmienne predykcyjne w Modelu 3: godziny spędzone na nauce i zdane egzaminy praktyczne
Najpierw użyjemy następującego kodu, aby utworzyć zbiór danych zawierający te informacje dla 20 uczniów:
/*create dataset*/ data exam_data; input hours prep_exams score; datalines ; 1 1 76 2 3 78 2 3 85 4 5 88 2 2 72 1 2 69 5 1 94 4 1 94 2 0 88 4 3 92 4 4 90 3 3 75 6 2 96 5 4 90 3 4 82 4 4 85 6 5 99 2 1 83 1 0 62 2 1 76 ; run ;
Następnie użyjemy proc reg , aby dopasować każdy z tych modeli regresji i użyjemy instrukcji choice=adjrsq sse aic do obliczenia wartości AIC dla każdego modelu:
/*fit multiple linear regression models and calculate AIC for each model*/ proc reg data =exam_data; model score = hours prep_exams / selection=adjrsq sse aic; run ;
Z wyniku możemy zobaczyć wartości AIC dla każdego modelu:
- AIC z godzinami jako zmienną predykcyjną: 68,4537
- AIC z godzinami i egzaminami jako zmiennymi predykcyjnymi: 69,9507
- AIC z egzaminami jako zmienną predykcyjną: 91,4967
Model o najniższej wartości AIC to ten, który zawiera tylko godziny jako zmienną predykcyjną.
Deklarujemy zatem, że najlepiej pasuje do danych następujący model:
Wynik = β 0 + β 1 (godziny nauki)
Gdy uznamy ten model za najlepszy, możemy go dopasować i przeanalizować wyniki, w tym wartość R-kwadrat i współczynniki beta, aby określić dokładny związek między przestudiowanymi godzinami a ocenami uczniów. 'egzamin końcowy.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:
Jak wykonać prostą regresję liniową w SAS-ie
Jak wykonać wielokrotną regresję liniową w SAS-ie
Jak obliczyć R-kwadrat w SAS
Jak obliczyć RMSE w SAS