Come calcolare il 'cp viola in r
Nell’analisi di regressione, Mallows Cp è una metrica utilizzata per selezionare il miglior modello di regressione tra diversi modelli potenziali.
Possiamo identificare il modello di regressione “migliore” identificando il modello con il valore Cp più basso vicino a p +1, dove p è il numero di variabili predittive nel modello.
Il modo più semplice per calcolare il Cp di Mallows in R è utilizzare la funzione ols_mallows_cp() dal pacchetto olsrr .
L’esempio seguente mostra come utilizzare questa funzione per calcolare il Cp di Mallows per selezionare il miglior modello di regressione tra diversi potenziali modelli in R.
Esempio: calcolo di Mallows Cp in R
Supponiamo di voler adattare tre diversi modelli di regressione lineare multipla utilizzando le variabili del set di dati mtcars .
Il codice seguente mostra come adattare i seguenti modelli di regressione:
- Variabili predittive nel modello completo: le 10 variabili
- Variabili predittive nel modello 1: disp, hp, wt, qsec
- Variabili predittive nel modello 2: disp, qsec
- Variabili predittive nel modello 3: disp, wt
Il codice seguente mostra come adattare ciascuno di questi modelli di regressione e utilizzare la funzione ols_mallows_cp() per calcolare il Mallows Cp di ciascun modello:
library (olsrr) #fit full model full_model <- lm(mpg ~ ., data = mtcars) #fit three smaller models model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) model2 <- lm(mpg ~ disp + qsec, data = mtcars) model3 <- lm(mpg ~ disp + wt, data = mtcars) #calculate Mallows' Cp for each model ols_mallows_cp(model1, full_model) [1] 4.430434 ols_mallows_cp(model2, full_model) [1] 18.64082 ols_mallows_cp(model3, full_model) [1] 9.122225
Ecco come interpretare il risultato:
- Modello 1: p + 1 = 5, Mallows Cp = 4,43
- Modello 2: p + 1 = 3, Mallows Cp = 18,64
- Modello 3: p + 1 = 30, Mallows Cp = 9,12
Possiamo vedere che il modello 1 ha un valore per il Cp di Mallows più vicino a p + 1, indicando che è il modello migliore che porta alla distorsione minima tra i tre modelli potenziali.
Note sul Cp des mauves
Ecco alcune cose da tenere a mente su Mallows Cp:
- Se ciascun modello potenziale ha un valore Cp di Mallows elevato, ciò indica che è probabile che in ciascun modello manchino alcune importanti variabili predittive.
- Se diversi modelli potenziali hanno valori bassi per il Cp di Mallow, scegliere il modello con il valore più basso come modello migliore da utilizzare.
Tieni presente che il Cp di Mallows è solo un modo per identificare il modello di regressione “migliore” tra diversi modelli potenziali.
Un’altra misura comunemente utilizzata è l’R quadrato aggiustato, che ci dice la proporzione della varianza nella variabile di risposta che può essere spiegata dalle variabili predittive nel modello, aggiustate per il numero di variabili predittive utilizzate.
Per decidere quale modello di regressione è il migliore tra un elenco di diversi modelli diversi, si consiglia di esaminare sia il Cp di Mallows che l’R quadrato corretto.
Risorse addizionali
Come calcolare l’R quadrato corretto in R
Come calcolare l’AIC in R