Como calcular a distância de cozimento no sas
A distância de Cook é usada para identificar observações influentes em um modelo de regressão.
A fórmula para a distância de Cook é:
d i = (r i 2 / p*MSE) * (h ii / (1-h ii ) 2 )
Ouro:
- ri é o i- ésimo resíduo
- p é o número de coeficientes no modelo de regressão
- MSE é o erro quadrático médio
- h ii é o i- ésimo valor de alavancagem
Essencialmente, a distância de Cook mede o quanto todos os valores ajustados do modelo mudam quando a i- ésima observação é removida.
Quanto maior o valor da distância de Cook, mais influente é uma determinada observação.
Geralmente, qualquer observação com uma distância de Cook superior a 4/n (onde n = total de observações) é considerada como tendo uma grande influência.
O exemplo a seguir mostra como calcular a distância de Cook para cada observação em um modelo de regressão no SAS.
Exemplo: Calculando a distância do cozinheiro no SAS
Vamos supor que temos o seguinte conjunto de dados no SAS:
/*create dataset*/
data my_data;
input xy;
datalines ;
8 41
12 42
12 39
13 37
14 35
16 39
17 45
22 46
24 39
26 49
29 55
30 57
;
run ;
/*view dataset*/
proc print data =my_data;
Podemos usar PROC REG para ajustar um modelo de regressão linear simples a este conjunto de dados e, em seguida, usar a instrução OUTPUT com a instrução COOKD para calcular a distância de Cook para cada observação no modelo de regressão:
/*fit simple linear regression model and calculate Cook's distance for each obs*/
proc reg data =my_data;
model y=x;
output out=cooksData cookd =cookd;
run ;
/*print Cook's distance values for each observation*/
proc print data =cooksData;
A tabela de resultados finais exibe o conjunto de dados original junto com a distância de Cook para cada observação:
Por exemplo, podemos ver:
- A distância de Cook para a primeira observação é 0,36813 .
- A distância de Cook para a segunda observação é 0,06075 .
- A distância de Cook para a terceira observação é 0,00052 .
E assim por diante.
O procedimento PROC REG também produz vários gráficos de diagnóstico na saída e o gráfico de distância de Cook pode ser visto nesta saída:
O eixo x mostra o número da observação e o eixo y mostra a distância de Cook para cada observação.
Observe que uma linha de corte é colocada em 4/n (neste caso n = 12, então o corte é 0,33) e podemos ver que três observações no conjunto de dados são maiores que esta linha.
Isto indica que estas observações podem ter uma grande influência no modelo de regressão e talvez devam ser examinadas mais de perto antes de interpretar os resultados do modelo.
Recursos adicionais
Os tutoriais a seguir explicam como executar outras tarefas comuns no SAS:
Como criar um gráfico residual no SAS
Como criar histogramas no SAS
Como criar nuvens de pontos no SAS
Como identificar outliers no SAS