Kiedy stosować regresję grzbietu i lasso


W zwykłej wielokrotnej regresji liniowej używamy zestawu p zmiennych predykcyjnych i zmiennej odpowiedzi, aby dopasować model w postaci:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Wartości β 0 , β 1 , B 2 , …, β p dobieramy metodą najmniejszych kwadratów, która minimalizuje sumę kwadratów reszt (RSS):

RSS = Σ(y i – ŷ i ) 2

Złoto:

  • Σ : Symbol oznaczający „sumę”
  • y i : rzeczywista wartość odpowiedzi dla i-tej obserwacji
  • ŷ i : Przewidywana wartość odpowiedzi dla i- tej obserwacji

Problem wielowspółliniowości w regresji

Problemem, który często pojawia się w praktyce w przypadku wielokrotnej regresji liniowej, jest wieloliniowość – gdy dwie lub więcej zmiennych predykcyjnych jest ze sobą silnie skorelowanych, tak że nie dostarczają unikalnych lub niezależnych informacji w modelu regresji.

Może to sprawić, że szacunki współczynników modelu będą niewiarygodne i będą wykazywać dużą wariancję. Oznacza to, że gdy model zostanie zastosowany do nowego zbioru danych, którego nigdy wcześniej nie widział, prawdopodobnie będzie działał słabo.

Unikanie współliniowości: regresja Ridge’a i Lasso

Dwie metody, których możemy użyć, aby obejść ten problem współliniowości, to regresja grzbietowa i regresja lassa .

Regresja grzbietowa ma na celu zminimalizowanie następujących elementów:

  • RSS + λΣβ j 2

Regresja Lasso ma na celu zminimalizowanie następujących elementów:

  • RSS + λΣ|β j |

W obu równaniach drugi człon nazywany jest karą za wycofanie .

Gdy λ = 0, ten składnik kary nie ma żadnego efektu, a regresja grzbietowa i regresja lasso dają takie same szacunki współczynników, jak metoda najmniejszych kwadratów.

Jednakże, gdy λ zbliża się do nieskończoności, kara za skurcz staje się bardziej wpływowa, a zmienne predykcyjne, których nie można zaimportować do modelu, zmniejszają się do zera.

Dzięki regresji Lasso niektóre współczynniki mogą osiągnąć całkowite zero , gdy λ stanie się wystarczająco duże.

Zalety i wady regresji Ridge’a i Lasso

Przewagą regresji Ridge’a i Lasso nad regresją metodą najmniejszych kwadratów jest kompromis w zakresie odchylenia i wariancji .

Przypomnijmy, że błąd średniokwadratowy (MSE) to metryka, za pomocą której możemy zmierzyć dokładność danego modelu i oblicza się go w następujący sposób:

MSE = Var( f̂( x 0 )) + [Odchylenie( f̂( x 0 ))] 2 + Var(ε)

MSE = wariancja + błąd 2 + błąd nieredukowalny

Podstawową ideą regresji grzbietowej i regresji lasso jest wprowadzenie małego błędu systematycznego, dzięki czemu wariancja może zostać znacznie zmniejszona, co prowadzi do niższego ogólnego MSE.

Aby to zilustrować, rozważ następujący wykres:

Kompromis odchylenia i wariancji regresji grzbietowej

Należy zauważyć, że wraz ze wzrostem λ wariancja znacznie maleje przy bardzo małym wzroście obciążenia. Jednak powyżej pewnego punktu wariancja maleje wolniej, a spadek współczynników prowadzi do ich znacznego niedoszacowania, co prowadzi do gwałtownego wzrostu obciążenia systematycznego.

Z wykresu widzimy, że MSE testu jest najniższe, gdy wybierzemy wartość λ, która zapewnia optymalny kompromis między obciążeniem a wariancją.

Gdy λ = 0, składnik karny w regresji lasso nie ma żadnego efektu i dlatego daje takie same oszacowania współczynników, jak metoda najmniejszych kwadratów. Jednakże, zwiększając λ do pewnego punktu, możemy zmniejszyć całkowite MSE testu.

Kompromis odchylenia i wariancji metodą regresji Lasso

Oznacza to, że dopasowanie modelu za pomocą regresji grzbietowej i lassa może potencjalnie powodować mniejsze błędy testowe niż dopasowanie modelu za pomocą regresji najmniejszych kwadratów.

Wadą regresji Ridge’a i Lasso jest to, że interpretacja współczynników w ostatecznym modelu staje się trudna, gdy zmniejszają się one do zera.

Zatem regresję Ridge’a i Lasso należy stosować, jeśli chcesz zoptymalizować zdolność przewidywania, a nie wnioskowanie.

Ridge kontra Regresja Lasso: kiedy używać każdego z nich

Regresja Lasso i regresja grzbietowa są znane jako metody regularyzacji , ponieważ obie mają na celu zminimalizowanie resztowej sumy kwadratów (RSS), a także określonego warunku kary.

Innymi słowy, ograniczają lub regulują oszacowania współczynników modelu.

To naturalnie rodzi pytanie: czy lepsza jest regresja grzbietu czy lassa?

W przypadkach, gdy istotna jest tylko niewielka liczba zmiennych predykcyjnych, regresja lasso zwykle działa lepiej, ponieważ jest w stanie całkowicie zredukować nieistotne zmienne do zera i usunąć je z modelu.

Jednakże, gdy w modelu znaczących jest wiele zmiennych predykcyjnych, a ich współczynniki są w przybliżeniu równe, regresja grzbietowa zwykle działa lepiej, ponieważ utrzymuje wszystkie predyktory w modelu.

Aby określić, który model jest najlepszy do prognozowania, zazwyczaj przeprowadzamy k-krotną weryfikację krzyżową i wybieramy model, który daje najniższy średni błąd kwadratowy testu.

Dodatkowe zasoby

Poniższe samouczki stanowią wprowadzenie do regresji grzbietowej i regresji lasso:

Poniższe samouczki wyjaśniają, jak przeprowadzić oba typy regresji w R i Pythonie:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *