Wat is mallows? cp? (definitie & voorbeeld)


Mallows Cp is een metriek die wordt gebruikt om het beste regressiemodel uit verschillende modellen te selecteren.

Het wordt als volgt berekend:

Cp = RSS p /S 2 – N + 2(P+1)

Goud:

  • RSS p : de resterende kwadratensom voor een model met p- voorspellingsvariabelen
  • S 2 : Het resterende gemiddelde kwadraat van het model (geschat door MSE)
  • N: Steekproefomvang
  • P: Het aantal voorspellende variabelen

Mallows Cp wordt gebruikt wanneer we verschillende potentiële voorspellende variabelen hebben die we in een regressiemodel willen gebruiken en we het beste model willen identificeren dat een subset van deze voorspellende variabelen gebruikt.

We kunnen het ‘beste’ regressiemodel identificeren door het model te identificeren met de laagste Cp-waarde kleiner dan P+1, waarbij P het aantal voorspellende variabelen in het model is.

Het volgende voorbeeld laat zien hoe u Mallows‘ Cp kunt gebruiken om het beste regressiemodel uit verschillende potentiële modellen te selecteren.

Voorbeeld: Mallows Cp gebruiken om het beste model te selecteren

Veronderstelt dat een professor het aantal gestudeerde uren, de afgelegde voorbereidende examens en de huidige cumulatieve GPA wil gebruiken als voorspellende variabelen in een regressiemodel om te voorspellen welk cijfer een student zal krijgen op het eindexamen.

Het past in zeven verschillende regressiemodellen en berekent voor elk model de Mallows Cp-waarde:

Mallows Cp gebruiken om het beste regressiemodel te kiezen

Als de waarde van Mallows‘ Cp kleiner is dan het aantal modelcoëfficiënten (P+1), dan wordt gezegd dat het model onbevooroordeeld is.

We kunnen zien dat er twee onpartijdige modellen zijn:

  • Het model met Uren en GPA als voorspellende variabelen (Cp van Mallows = 2,9, P+1 = 3)
  • Het model met voorbereidingsexamens en GPA als voorspellende variabelen (Cp van Mallows = 2,7, P+1 = 3)

Van deze twee modellen heeft het model dat voorbereidende examens en GPA als voorspellende variabelen gebruikt de laagste waarde voor de Cp van Mallows, wat ons vertelt dat dit het betere model is dat tot de minste vertekening leidt.

Opmerkingen over de Cp des mauves

Hier zijn enkele dingen waarmee u rekening moet houden bij Mallows Cp:

  • Van modellen met een Mallows Cp-waarde dichtbij P+1 wordt gezegd dat ze een lage bias hebben.
  • Als elk potentieel model een hoge Mallows Cp-waarde heeft, geeft dit aan dat enkele belangrijke voorspellende variabelen waarschijnlijk in elk model ontbreken.
  • Als meerdere potentiële modellen lage waarden hebben voor Mallow’s Cp, kies dan het model met de laagste waarde als het beste model om te gebruiken.

Houd er ook rekening mee dat de Cp van Mallows slechts één manier is om de goedheid van de fit van een regressiemodel te meten.

Een andere veelgebruikte maatstaf is de aangepaste R-kwadraat, die ons vertelt hoeveel variantie in deresponsvariabele kan worden verklaard door de voorspellende variabelen in het model, aangepast voor het aantal gebruikte voorspellende variabelen.

Om te beslissen welk regressiemodel het beste is uit een lijst van verschillende modellen, is het een goed idee om zowel naar de Cp van Mallows als naar het aangepaste R-kwadraat te kijken.

Aanvullende bronnen

Hoe Mallows Cp in R te berekenen
Hoe u het aangepaste R-kwadraat in R kunt berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert