Jak obliczyć rmse w sas
Jednym ze sposobów oceny, jak dobrze model regresji pasuje do zbioru danych, jest obliczenie błędu średniokwadratowego , który jest metryką, która mówi nam średnią odległość między wartościami przewidywanymi modelu a rzeczywistymi wartościami zbioru danych.
Im niższy RMSE, tym lepiej dany model jest w stanie „dopasować” zbiór danych.
Wzór na znalezienie błędu średniokwadratowego, często w skrócie RMSE , jest następujący:
RMSE = √ Σ(P ja – O ja ) 2 / n
Złoto:
- Σ jest symbolem reprezentującym „sumę”
- Pi jest przewidywaną wartością i-tej obserwacji w zbiorze danych
- O i jest obserwowaną wartością i-tej obserwacji w zbiorze danych
- n to wielkość próbki
Poniższy przykład pokazuje krok po kroku, jak obliczyć RMSE dla prostego modelu regresji liniowej w SAS-ie.
Krok 1: Utwórz dane
Na potrzeby tego przykładu utworzymy zbiór danych zawierający całkowitą liczbę przepracowanych godzin i oceny z egzaminu końcowego 15 uczniów.
Dopasujemy prosty model regresji liniowej, wykorzystując godziny jako zmienną predykcyjną i wynik jako zmienną odpowiedzi.
Poniższy kod pokazuje, jak utworzyć ten zbiór danych w SAS-ie:
/*create dataset*/ data exam_data; input hours score; datalines ; 1 64 2 66 4 76 5 73 5 74 6 81 6 83 7 82 8 80 10 88 11 84 11 82 12 91 12 93 14 89 ; run ; /*view dataset*/ proc print data =exam_data;
Krok 2: Dopasuj prosty model regresji liniowej
Następnie użyjemy proc reg , aby dopasować prosty model regresji liniowej:
/*fit simple linear regression model*/ proc reg data =exam_data; model score = hours; run ;
Należy zauważyć, że RMSE na wyjściu wynosi 3,64093 .
Krok 3: Wyodrębnij RMSE z modelu regresji
Jeśli chcesz wyświetlić tylko RMSE tego modelu i żadnych innych wyników wyjściowych, możesz użyć następującego kodu:
/*fit simple linear regression model*/ proc reg data =exam_data outest =outest noprint ; model score = hours / rmse ; run ; quit ; /*print RMSE of model*/ proc print data =outest; var _RMSE_; run ;
Należy zauważyć, że na wyjściu wyświetlana jest tylko wartość RMSE wynosząca 3,64093 .
Uwaga : Argument noprint w proc reg mówi SAS-owi, aby nie drukował całego wyniku regresji, tak jak to miało miejsce w poprzednim kroku.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:
Jak wykonać prostą regresję liniową w SAS-ie
Jak wykonać wielokrotną regresję liniową w SAS-ie
Jak wykonać regresję wielomianową w SAS-ie
Jak przeprowadzić regresję logistyczną w SAS-ie