Como calcular a distância de cozimento no sas


A distância de Cook é usada para identificar observações influentes em um modelo de regressão.

A fórmula para a distância de Cook é:

d i = (r i 2 / p*MSE) * (h ii / (1-h ii ) 2 )

Ouro:

  • ri é o i- ésimo resíduo
  • p é o número de coeficientes no modelo de regressão
  • MSE é o erro quadrático médio
  • h ii é o i- ésimo valor de alavancagem

Essencialmente, a distância de Cook mede o quanto todos os valores ajustados do modelo mudam quando a i- ésima observação é removida.

Quanto maior o valor da distância de Cook, mais influente é uma determinada observação.

Geralmente, qualquer observação com uma distância de Cook superior a 4/n (onde n = total de observações) é considerada como tendo uma grande influência.

O exemplo a seguir mostra como calcular a distância de Cook para cada observação em um modelo de regressão no SAS.

Exemplo: Calculando a distância do cozinheiro no SAS

Vamos supor que temos o seguinte conjunto de dados no SAS:

 /*create dataset*/
data my_data;
    input xy;
    datalines ;
8 41
12 42
12 39
13 37
14 35
16 39
17 45
22 46
24 39
26 49
29 55
30 57
;
run ;

/*view dataset*/
proc print data =my_data;

Podemos usar PROC REG para ajustar um modelo de regressão linear simples a este conjunto de dados e, em seguida, usar a instrução OUTPUT com a instrução COOKD para calcular a distância de Cook para cada observação no modelo de regressão:

 /*fit simple linear regression model and calculate Cook's distance for each obs*/
proc reg data =my_data;
    model y=x;
    output out=cooksData cookd =cookd;
run ;

/*print Cook's distance values for each observation*/
proc print data =cooksData;

A tabela de resultados finais exibe o conjunto de dados original junto com a distância de Cook para cada observação:

Por exemplo, podemos ver:

  • A distância de Cook para a primeira observação é 0,36813 .
  • A distância de Cook para a segunda observação é 0,06075 .
  • A distância de Cook para a terceira observação é 0,00052 .

E assim por diante.

O procedimento PROC REG também produz vários gráficos de diagnóstico na saída e o gráfico de distância de Cook pode ser visto nesta saída:

Distância de cozimento no SAS

O eixo x mostra o número da observação e o eixo y mostra a distância de Cook para cada observação.

Observe que uma linha de corte é colocada em 4/n (neste caso n = 12, então o corte é 0,33) e podemos ver que três observações no conjunto de dados são maiores que esta linha.

Isto indica que estas observações podem ter uma grande influência no modelo de regressão e talvez devam ser examinadas mais de perto antes de interpretar os resultados do modelo.

Recursos adicionais

Os tutoriais a seguir explicam como executar outras tarefas comuns no SAS:

Como criar um gráfico residual no SAS
Como criar histogramas no SAS
Como criar nuvens de pontos no SAS
Como identificar outliers no SAS

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *