O que é malva? cp? (definição e exemplo)


Mallows Cp é uma métrica usada para selecionar o melhor modelo de regressão entre vários modelos diferentes.

É calculado da seguinte forma:

Cp = RSS p /S 2 – N + 2(P+1)

Ouro:

  • RSS p : A soma residual dos quadrados para um modelo com p variáveis preditoras
  • S 2 : O quadrado médio residual do modelo (estimado pelo MSE)
  • N: Tamanho da amostra
  • P: O número de variáveis preditoras

Mallows Cp é usado quando temos várias variáveis preditoras potenciais que gostaríamos de usar em um modelo de regressão e queremos identificar o melhor modelo que usa um subconjunto dessas variáveis preditoras.

Podemos identificar o “melhor” modelo de regressão identificando o modelo com o menor valor de Cp menor que P+1, onde P é o número de variáveis preditoras no modelo.

O exemplo a seguir mostra como usar o Cp de Mallows para selecionar o melhor modelo de regressão entre vários modelos potenciais.

Exemplo: Usando Mallows Cp para selecionar o melhor modelo

Supõe que um professor deseja usar horas estudadas, exames preparatórios realizados e GPA cumulativo atual como variáveis preditoras em um modelo de regressão para prever a nota que um aluno receberá no exame final.

Ele se ajusta a sete modelos de regressão diferentes e calcula o valor Mallows Cp para cada modelo:

Usando Mallows Cp para escolher o melhor modelo de regressão

Se o valor do Cp de Mallows for menor que o número de coeficientes do modelo (P+1), então o modelo é considerado imparcial.

Podemos ver que existem dois modelos imparciais:

  • O modelo com Horas e GPA como variáveis preditoras (Cp de Mallows = 2,9, P+1 = 3)
  • O modelo com Prep Exams e GPA como variáveis preditoras (Mallows’ Cp = 2,7, P+1 = 3)

Destes dois modelos, o modelo que utiliza exames preparatórios e GPA como variáveis preditoras tem o menor valor para Cp de Mallows, o que nos diz que é o melhor modelo que resulta em menor viés.

Notas sobre o Cp des malves

Aqui estão algumas coisas que você deve ter em mente sobre o Mallows Cp:

  • Diz-se que os modelos que têm um valor de Cp de Mallows próximo de P+1 têm viés baixo.
  • Se cada modelo potencial tiver um valor alto de Mallows Cp, isso indica que algumas variáveis preditoras importantes provavelmente estão faltando em cada modelo.
  • Se vários modelos potenciais apresentarem valores baixos para Cp de Mallow, escolha o modelo com o valor mais baixo como o melhor modelo a ser usado.

Lembre-se também de que o Cp de Mallows é apenas uma maneira de medir a qualidade do ajuste de um modelo de regressão.

Outra medida comumente usada é o R-quadrado ajustado, que nos informa a proporção de variância na variável resposta que pode ser explicada pelas variáveis preditoras no modelo, ajustada pelo número de variáveis preditoras utilizadas.

Para decidir qual modelo de regressão é melhor em uma lista de vários modelos diferentes, é uma boa ideia observar o Cp de Mallows e o R-quadrado ajustado.

Recursos adicionais

Como calcular Malvas Cp em R
Como calcular R-quadrado ajustado em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *