Como calcular o 'cp roxo em r
Na análise de regressão, Mallows Cp é uma métrica usada para selecionar o melhor modelo de regressão entre vários modelos potenciais.
Podemos identificar o “melhor” modelo de regressão identificando o modelo com o menor valor de Cp próximo de p +1, onde p é o número de variáveis preditoras no modelo.
A maneira mais fácil de calcular o Cp de Mallows em R é usar a função ols_mallows_cp() do pacote olsrr .
O exemplo a seguir mostra como usar esta função para calcular o Cp de Mallows para selecionar o melhor modelo de regressão entre vários modelos potenciais em R.
Exemplo: cálculo de Mallows Cp em R
Digamos que queremos ajustar três modelos diferentes de regressão linear múltipla usando variáveis do conjunto de dados mtcars .
O código a seguir mostra como ajustar os seguintes modelos de regressão:
- Variáveis preditoras no modelo completo: as 10 variáveis
- Variáveis preditoras no modelo 1: disp, hp, wt, qsec
- Variáveis preditoras no modelo 2: disp, qsec
- Variáveis preditoras no modelo 3: disp, wt
O código a seguir mostra como ajustar cada um desses modelos de regressão e usar a função ols_mallows_cp() para calcular o Mallows Cp de cada modelo:
library (olsrr) #fit full model full_model <- lm(mpg ~ ., data = mtcars) #fit three smaller models model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) model2 <- lm(mpg ~ disp + qsec, data = mtcars) model3 <- lm(mpg ~ disp + wt, data = mtcars) #calculate Mallows' Cp for each model ols_mallows_cp(model1, full_model) [1] 4.430434 ols_mallows_cp(model2, full_model) [1] 18.64082 ols_mallows_cp(model3, full_model) [1] 9.122225
Veja como interpretar o resultado:
- Modelo 1: p + 1 = 5, Malvas Cp = 4,43
- Modelo 2: p + 1 = 3, Malvas Cp = 18,64
- Modelo 3: p + 1 = 30, Malvas Cp = 9,12
Podemos observar que o modelo 1 possui um valor para Cp de Mallows mais próximo de p + 1, indicando que é o melhor modelo que leva ao menor viés entre os três modelos potenciais.
Notas sobre o Cp des malves
Aqui estão algumas coisas que você deve ter em mente sobre o Mallows Cp:
- Se cada modelo potencial tiver um valor alto de Mallows Cp, isso indica que algumas variáveis preditoras importantes provavelmente estão faltando em cada modelo.
- Se vários modelos potenciais apresentarem valores baixos para Cp de Mallow, escolha o modelo com o valor mais baixo como o melhor modelo a ser usado.
Tenha em mente que o Cp de Mallows é apenas uma forma de identificar o “melhor” modelo de regressão entre vários modelos potenciais.
Outra medida comumente usada é o R-quadrado ajustado, que nos informa a proporção de variância na variável resposta que pode ser explicada pelas variáveis preditoras no modelo, ajustada pelo número de variáveis preditoras utilizadas.
Para decidir qual modelo de regressão é o melhor entre uma lista de vários modelos diferentes, recomenda-se observar tanto o Cp de Mallows quanto o R-quadrado ajustado.
Recursos adicionais
Como calcular R-quadrado ajustado em R
Como calcular AIC em R