O que é malva? cp? (definição e exemplo)
Mallows Cp é uma métrica usada para selecionar o melhor modelo de regressão entre vários modelos diferentes.
É calculado da seguinte forma:
Cp = RSS p /S 2 – N + 2(P+1)
Ouro:
- RSS p : A soma residual dos quadrados para um modelo com p variáveis preditoras
- S 2 : O quadrado médio residual do modelo (estimado pelo MSE)
- N: Tamanho da amostra
- P: O número de variáveis preditoras
Mallows Cp é usado quando temos várias variáveis preditoras potenciais que gostaríamos de usar em um modelo de regressão e queremos identificar o melhor modelo que usa um subconjunto dessas variáveis preditoras.
Podemos identificar o “melhor” modelo de regressão identificando o modelo com o menor valor de Cp menor que P+1, onde P é o número de variáveis preditoras no modelo.
O exemplo a seguir mostra como usar o Cp de Mallows para selecionar o melhor modelo de regressão entre vários modelos potenciais.
Exemplo: Usando Mallows Cp para selecionar o melhor modelo
Supõe que um professor deseja usar horas estudadas, exames preparatórios realizados e GPA cumulativo atual como variáveis preditoras em um modelo de regressão para prever a nota que um aluno receberá no exame final.
Ele se ajusta a sete modelos de regressão diferentes e calcula o valor Mallows Cp para cada modelo:
Se o valor do Cp de Mallows for menor que o número de coeficientes do modelo (P+1), então o modelo é considerado imparcial.
Podemos ver que existem dois modelos imparciais:
- O modelo com Horas e GPA como variáveis preditoras (Cp de Mallows = 2,9, P+1 = 3)
- O modelo com Prep Exams e GPA como variáveis preditoras (Mallows’ Cp = 2,7, P+1 = 3)
Destes dois modelos, o modelo que utiliza exames preparatórios e GPA como variáveis preditoras tem o menor valor para Cp de Mallows, o que nos diz que é o melhor modelo que resulta em menor viés.
Notas sobre o Cp des malves
Aqui estão algumas coisas que você deve ter em mente sobre o Mallows Cp:
- Diz-se que os modelos que têm um valor de Cp de Mallows próximo de P+1 têm viés baixo.
- Se cada modelo potencial tiver um valor alto de Mallows Cp, isso indica que algumas variáveis preditoras importantes provavelmente estão faltando em cada modelo.
- Se vários modelos potenciais apresentarem valores baixos para Cp de Mallow, escolha o modelo com o valor mais baixo como o melhor modelo a ser usado.
Lembre-se também de que o Cp de Mallows é apenas uma maneira de medir a qualidade do ajuste de um modelo de regressão.
Outra medida comumente usada é o R-quadrado ajustado, que nos informa a proporção de variância na variável resposta que pode ser explicada pelas variáveis preditoras no modelo, ajustada pelo número de variáveis preditoras utilizadas.
Para decidir qual modelo de regressão é melhor em uma lista de vários modelos diferentes, é uma boa ideia observar o Cp de Mallows e o R-quadrado ajustado.
Recursos adicionais
Como calcular Malvas Cp em R
Como calcular R-quadrado ajustado em R