Co to jest oszczędny model?
Model oszczędny to taki, który osiąga pożądany poziom dopasowania przy użyciu jak najmniejszej liczby zmiennych objaśniających .
Uzasadnienie tego typu modelu wywodzi się z idei brzytwy Ockhama (czasami nazywanej „zasadą oszczędności”), która mówi, że najprostsze wyjaśnienie jest prawdopodobnie właściwe.
W odniesieniu do statystyk model, który ma niewiele parametrów, ale osiąga zadowalający poziom dopasowania, powinien być preferowany w porównaniu z modelem, który ma mnóstwo parametrów i osiąga jedynie nieco wyższy poziom dopasowania.
Są ku temu dwa powody:
1. Modele oszczędne są łatwiejsze do interpretacji i zrozumienia. Modele z mniejszą liczbą parametrów są łatwiejsze do zrozumienia i wyjaśnienia.
2. Modele oszczędne mają zwykle większą zdolność przewidywania. Modele z mniejszą liczbą parametrów zwykle działają lepiej po zastosowaniu do nowych danych.
Aby zilustrować te pomysły, rozważ poniższe dwa przykłady.
Przykład 1: Modele oszczędne = Łatwa interpretacja
Załóżmy, że chcemy zbudować model wykorzystujący zestaw zmiennych objaśniających związanych z nieruchomościami do przewidywania cen nieruchomości. Rozważmy następujące dwa modele z ich skorygowanym współczynnikiem R-kwadrat:
Model 1:
- Równanie: Cena domu = 8830 + 81*(stopy kwadratowe)
- Skorygowany R2 : 0,7734
Model 2:
- Równanie: Cena domu = 8921 + 77*(stopy kwadratowe) + 7*(stopy kwadratowe) 2 – 9*(wiek) + 600*(sypialnie) + 38*(łazienki)
- Skorygowany R2 : 0,7823
Pierwszy model ma tylko jedną zmienną objaśniającą i skorygowany R2 wynoszący 0,7734, podczas gdy drugi model ma pięć zmiennych objaśniających z nieco wyższym skorygowanym R2 .
Opierając się na zasadzie oszczędności, wolelibyśmy zastosować pierwszy model, ponieważ każdy model ma w przybliżeniu taką samą zdolność wyjaśniania zmian cen domów, ale pierwszy model jest znacznie łatwiejszy do zrozumienia i wyjaśnienia.
Na przykład w pierwszym modelu wiemy, że wzrost powierzchni domu o jedną jednostkę wiąże się ze średnim wzrostem ceny domu o 81 dolarów. Łatwo to zrozumieć i wyjaśnić.
Jednak w drugim przykładzie szacunki współczynników są znacznie trudniejsze do interpretacji. Na przykład dodatkowy pokój w domu wiąże się ze średnim wzrostem ceny domu o 600 dolarów, przy założeniu, że powierzchnia, wiek domu i liczba łazienek pozostają niezmienne. Dużo trudniej to zrozumieć i wytłumaczyć.
Przykład 2: Modele oszczędne = lepsze przewidywania
Modele oszczędne mają również tendencję do dokładniejszego przewidywania nowych zbiorów danych, ponieważ jest mniejsze prawdopodobieństwo nadmiernego dopasowania ich do pierwotnego zbioru danych.
Ogólnie rzecz biorąc, modele z większą liczbą parametrów będą dawać ciaśniejsze dopasowania i wyższe wartości R2 niż modele z mniejszą liczbą parametrów. Niestety, uwzględnienie w modelu zbyt wielu parametrów może spowodować dostosowanie modelu do szumu (lub „losowości”) danych, a nie do prawdziwej zależności pomiędzy zmiennymi objaśniającymi. i zmienne odpowiedzi.
Oznacza to, że bardzo złożony model z wieloma parametrami prawdopodobnie będzie słabo działał na nowym zbiorze danych, którego nigdy wcześniej nie widział, w porównaniu z prostszym modelem z mniejszą liczbą parametrów.
Jak wybrać oszczędny model
Tematowi wyboru modelu można poświęcić cały kurs, ale zasadniczo wybór modelu oszczędnego oznacza wybranie modelu, który działa najlepiej pod względem danych metrycznych.
Powszechnie używane metryki, które oceniają modele na podstawie ich wydajności na zbiorze danych szkoleniowych i ich liczbie parametrów, obejmują:
1. Kryterium informacyjne Akaike (AIC)
AIC modelu można obliczyć w następujący sposób:
AIC = -2/n * LL + 2 * k/n
Złoto:
- n: liczba obserwacji w zbiorze danych szkoleniowych.
- LL: logarytm wiarygodności modelu w zbiorze danych szkoleniowych.
- k: Liczba parametrów w modelu.
Za pomocą tej metody można obliczyć AIC każdego modelu, a następnie wybrać model o najniższej wartości AIC jako najlepszy model.
Podejście to faworyzuje bardziej złożone modele w porównaniu z następną metodą, BIC.
2. Bayesowskie kryterium informacyjne (BIC)
BIC modelu można obliczyć w następujący sposób:
BIC = -2 * LL + log(n) * k
Złoto:
- n: liczba obserwacji w zbiorze danych szkoleniowych.
- log: logarytm naturalny (podstawa e)
- LL: logarytm wiarygodności modelu w zbiorze danych szkoleniowych.
- k: Liczba parametrów w modelu.
Za pomocą tej metody można obliczyć BIC każdego modelu, a następnie wybrać model z najniższą wartością BIC jako model najlepszy.
Podejście to faworyzuje modele o mniejszej liczbie parametrów w porównaniu z metodą AIC.
3. Minimalna długość opisu (MDL)
MDL to sposób na ewaluację modeli z zakresu teorii informacji. Można to obliczyć w następujący sposób:
MDL = L(h) + L(D | godz)
Złoto:
- h: Model.
- D: Przewidywania dokonane przez model.
- L(h): Liczba bitów wymaganych do reprezentowania modelu.
- L(D | h): liczba bitów wymaganych do przedstawienia przewidywań modelu w danych szkoleniowych.
Korzystając z tej metody, można obliczyć MDL każdego modelu, a następnie wybrać model o najniższej wartości MDL jako model najlepszy.
W zależności od rodzaju problemu, nad którym pracujesz, jedna z tych metod – AIC, BIC lub MDL – może być preferowana w stosunku do innych przy wyborze oszczędnego modelu.