Co to jest malwy? pk? (definicja i przykład)
Mallows Cp to metryka używana do wyboru najlepszego modelu regresji spośród kilku różnych modeli.
Oblicza się go w następujący sposób:
Cp = RSS p /S 2 – N + 2(P+1)
Złoto:
- RSS p : Resztowa suma kwadratów dla modelu z p zmiennymi predykcyjnymi
- S 2 : Pozostała średnia kwadratowa modelu (oszacowana przez MSE)
- N: Rozmiar próbki
- P: Liczba zmiennych predykcyjnych
Mallows Cp stosuje się, gdy mamy kilka potencjalnych zmiennych predykcyjnych, które chcielibyśmy zastosować w modelu regresji i chcemy zidentyfikować najlepszy model, który wykorzystuje podzbiór tych zmiennych predykcyjnych.
„Najlepszy” model regresji możemy zidentyfikować, identyfikując model o najniższej wartości Cp mniejszej niż P+1, gdzie P to liczba zmiennych predykcyjnych w modelu.
Poniższy przykład pokazuje, jak wykorzystać Cp Mallowsa do wybrania najlepszego modelu regresji spośród kilku potencjalnych modeli.
Przykład: użycie Mallows Cp do wybrania najlepszego modelu
Załóżmy, że profesor chce wykorzystać przepracowane godziny, zdane egzaminy przygotowawcze i aktualną skumulowaną średnią ocen jako zmienne predykcyjne w modelu regresji, aby przewidzieć ocenę, jaką student otrzyma z egzaminu końcowego.
Pasuje do siedmiu różnych modeli regresji i oblicza wartość Cp Mallowsa dla każdego modelu:
Jeżeli wartość Cp Mallowsa jest mniejsza niż liczba współczynników modelu (P+1), to model nazywa się nieobciążonym.
Widzimy, że istnieją dwa modele bezstronne:
- Model ze zmiennymi predykcyjnymi Hours i GPA (Cp Mallowsa = 2,9, P+1 = 3)
- Model z egzaminami przygotowawczymi i GPA jako zmiennymi predykcyjnymi (Cp Mallowsa = 2,7, P+1 = 3)
Spośród tych dwóch modeli model wykorzystujący egzaminy przygotowawcze i GPA jako zmienne predykcyjne ma najniższą wartość Cp Mallowsa, co mówi nam, że jest to lepszy model, który powoduje najmniejsze obciążenie.
Uwagi na temat Cp des mauves
Oto kilka rzeczy, o których warto pamiętać na temat Mallows Cp:
- Mówi się, że modele, które mają wartość Cp Mallows bliską P+1, mają niskie obciążenie.
- Jeśli każdy potencjalny model ma wysoką wartość Cp Mallowsa, oznacza to, że w każdym modelu prawdopodobnie brakuje niektórych ważnych zmiennych predykcyjnych.
- Jeśli kilka potencjalnych modeli ma niskie wartości Cp Mallow, wybierz model o najniższej wartości jako najlepszy model do użycia.
Należy również pamiętać, że Cp Mallowsa to tylko jeden ze sposobów pomiaru dobroci dopasowania modelu regresji.
Inną powszechnie stosowaną miarą jest skorygowana wartość R-kwadrat, która mówi nam, jaką część wariancjizmiennej odpowiedzi można wyjaśnić za pomocą zmiennych predykcyjnych w modelu, skorygowanych o liczbę zastosowanych zmiennych predykcyjnych.
Aby zdecydować, który model regresji jest najlepszy z listy kilku różnych modeli, dobrze jest przyjrzeć się zarówno Cp Mallowsa, jak i skorygowanemu R-kwadratowi.
Dodatkowe zasoby
Jak obliczyć Cp Mallows w R
Jak obliczyć skorygowany R-kwadrat w R