Como calcular o 'cp roxo em r


Na análise de regressão, Mallows Cp é uma métrica usada para selecionar o melhor modelo de regressão entre vários modelos potenciais.

Podemos identificar o “melhor” modelo de regressão identificando o modelo com o menor valor de Cp próximo de p +1, onde p é o número de variáveis preditoras no modelo.

A maneira mais fácil de calcular o Cp de Mallows em R é usar a função ols_mallows_cp() do pacote olsrr .

O exemplo a seguir mostra como usar esta função para calcular o Cp de Mallows para selecionar o melhor modelo de regressão entre vários modelos potenciais em R.

Exemplo: cálculo de Mallows Cp em R

Digamos que queremos ajustar três modelos diferentes de regressão linear múltipla usando variáveis do conjunto de dados mtcars .

O código a seguir mostra como ajustar os seguintes modelos de regressão:

  • Variáveis preditoras no modelo completo: as 10 variáveis
  • Variáveis preditoras no modelo 1: disp, hp, wt, qsec
  • Variáveis preditoras no modelo 2: disp, qsec
  • Variáveis preditoras no modelo 3: disp, wt

O código a seguir mostra como ajustar cada um desses modelos de regressão e usar a função ols_mallows_cp() para calcular o Mallows Cp de cada modelo:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Veja como interpretar o resultado:

  • Modelo 1: p + 1 = 5, Malvas Cp = 4,43
  • Modelo 2: p + 1 = 3, Malvas Cp = 18,64
  • Modelo 3: p + 1 = 30, Malvas Cp = 9,12

Podemos observar que o modelo 1 possui um valor para Cp de Mallows mais próximo de p + 1, indicando que é o melhor modelo que leva ao menor viés entre os três modelos potenciais.

Notas sobre o Cp des malves

Aqui estão algumas coisas que você deve ter em mente sobre o Mallows Cp:

  • Se cada modelo potencial tiver um valor alto de Mallows Cp, isso indica que algumas variáveis preditoras importantes provavelmente estão faltando em cada modelo.
  • Se vários modelos potenciais apresentarem valores baixos para Cp de Mallow, escolha o modelo com o valor mais baixo como o melhor modelo a ser usado.

Tenha em mente que o Cp de Mallows é apenas uma forma de identificar o “melhor” modelo de regressão entre vários modelos potenciais.

Outra medida comumente usada é o R-quadrado ajustado, que nos informa a proporção de variância na variável resposta que pode ser explicada pelas variáveis preditoras no modelo, ajustada pelo número de variáveis preditoras utilizadas.

Para decidir qual modelo de regressão é o melhor entre uma lista de vários modelos diferentes, recomenda-se observar tanto o Cp de Mallows quanto o R-quadrado ajustado.

Recursos adicionais

Como calcular R-quadrado ajustado em R
Como calcular AIC em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *