Co to jest malwy? pk? (definicja i przykład)


Mallows Cp to metryka używana do wyboru najlepszego modelu regresji spośród kilku różnych modeli.

Oblicza się go w następujący sposób:

Cp = RSS p /S 2 – N + 2(P+1)

Złoto:

  • RSS p : Resztowa suma kwadratów dla modelu z p zmiennymi predykcyjnymi
  • S 2 : Pozostała średnia kwadratowa modelu (oszacowana przez MSE)
  • N: Rozmiar próbki
  • P: Liczba zmiennych predykcyjnych

Mallows Cp stosuje się, gdy mamy kilka potencjalnych zmiennych predykcyjnych, które chcielibyśmy zastosować w modelu regresji i chcemy zidentyfikować najlepszy model, który wykorzystuje podzbiór tych zmiennych predykcyjnych.

„Najlepszy” model regresji możemy zidentyfikować, identyfikując model o najniższej wartości Cp mniejszej niż P+1, gdzie P to liczba zmiennych predykcyjnych w modelu.

Poniższy przykład pokazuje, jak wykorzystać Cp Mallowsa do wybrania najlepszego modelu regresji spośród kilku potencjalnych modeli.

Przykład: użycie Mallows Cp do wybrania najlepszego modelu

Załóżmy, że profesor chce wykorzystać przepracowane godziny, zdane egzaminy przygotowawcze i aktualną skumulowaną średnią ocen jako zmienne predykcyjne w modelu regresji, aby przewidzieć ocenę, jaką student otrzyma z egzaminu końcowego.

Pasuje do siedmiu różnych modeli regresji i oblicza wartość Cp Mallowsa dla każdego modelu:

Użycie Mallows Cp do wyboru najlepszego modelu regresji

Jeżeli wartość Cp Mallowsa jest mniejsza niż liczba współczynników modelu (P+1), to model nazywa się nieobciążonym.

Widzimy, że istnieją dwa modele bezstronne:

  • Model ze zmiennymi predykcyjnymi Hours i GPA (Cp Mallowsa = 2,9, P+1 = 3)
  • Model z egzaminami przygotowawczymi i GPA jako zmiennymi predykcyjnymi (Cp Mallowsa = 2,7, P+1 = 3)

Spośród tych dwóch modeli model wykorzystujący egzaminy przygotowawcze i GPA jako zmienne predykcyjne ma najniższą wartość Cp Mallowsa, co mówi nam, że jest to lepszy model, który powoduje najmniejsze obciążenie.

Uwagi na temat Cp des mauves

Oto kilka rzeczy, o których warto pamiętać na temat Mallows Cp:

  • Mówi się, że modele, które mają wartość Cp Mallows bliską P+1, mają niskie obciążenie.
  • Jeśli każdy potencjalny model ma wysoką wartość Cp Mallowsa, oznacza to, że w każdym modelu prawdopodobnie brakuje niektórych ważnych zmiennych predykcyjnych.
  • Jeśli kilka potencjalnych modeli ma niskie wartości Cp Mallow, wybierz model o najniższej wartości jako najlepszy model do użycia.

Należy również pamiętać, że Cp Mallowsa to tylko jeden ze sposobów pomiaru dobroci dopasowania modelu regresji.

Inną powszechnie stosowaną miarą jest skorygowana wartość R-kwadrat, która mówi nam, jaką część wariancjizmiennej odpowiedzi można wyjaśnić za pomocą zmiennych predykcyjnych w modelu, skorygowanych o liczbę zastosowanych zmiennych predykcyjnych.

Aby zdecydować, który model regresji jest najlepszy z listy kilku różnych modeli, dobrze jest przyjrzeć się zarówno Cp Mallowsa, jak i skorygowanemu R-kwadratowi.

Dodatkowe zasoby

Jak obliczyć Cp Mallows w R
Jak obliczyć skorygowany R-kwadrat w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *