Como criar e interpretar uma curva roc no spss
A regressão logística é um método estatístico que usamos para ajustar um modelo de regressão quando a variável de resposta é binária. Para avaliar quão bem um modelo de regressão logística se ajusta a um conjunto de dados, podemos observar as duas métricas a seguir:
- Sensibilidade: probabilidade de o modelo prever um resultado positivo para uma observação quando o resultado é realmente positivo.
- Especificidade: a probabilidade de o modelo prever um resultado negativo para uma observação quando o resultado é realmente negativo.
Uma maneira simples de visualizar essas duas métricas é criar uma curva ROC , que é um gráfico que mostra a sensibilidade e a especificidade de um modelo de regressão logística.
Este tutorial explica como criar e interpretar uma curva ROC no SPSS.
Exemplo: curva ROC em SPSS
Digamos que temos o seguinte conjunto de dados que mostra se um jogador de basquete foi ou não convocado para a NBA (0 = não, 1 = sim), bem como sua média de pontos por jogo na faculdade:
Para criar uma curva ROC para este conjunto de dados, clique na guia Analisar , em Classificar e em Curva ROC :
Na nova janela que aparece, arraste a variável de rascunho para a área denominada State Variable. Defina o valor da variável de estado como 1 . (Este é o valor que indica que um jogador foi convocado). Arraste os pontos variáveis para a área denominada Test Variable.
Marque as caixas ao lado de Com linha de referência diagonal e coordenadas do ponto da curva ROC . Em seguida, clique em OK .
Veja como interpretar o resultado:
Resumo do processamento de arquivos:
Esta tabela exibe o número total de casos positivos e negativos no conjunto de dados. Neste exemplo, 8 jogadores foram convocados (resultado positivo) e 6 jogadores não foram convocados (resultado negativo):
Curva ROC:
A curva Receiver Operating Characteristic (ROC) é um gráfico de valores de sensibilidade versus especificidade 1 conforme o valor limite muda de 0 para 1:
Um modelo com alta sensibilidade e especificidade terá uma curva ROC que se ajusta ao canto superior esquerdo do gráfico. Um modelo com baixa sensibilidade e baixa especificidade terá uma curva próxima à diagonal de 45 graus.
Podemos ver que a curva ROC (a linha azul) neste exemplo abraça o canto superior esquerdo do gráfico, indicando que o modelo está fazendo um bom trabalho ao prever se os jogadores serão convocados ou não, com base na média de pontos por jogo . .
Área sob a curva:
A área sob a curva nos dá uma ideia da capacidade do modelo de distinguir entre resultados positivos e negativos. A AUC pode variar de 0 a 1. Quanto maior a AUC, melhor será o modelo na classificação correta dos resultados.
Podemos ver que a AUC para este modelo de regressão logística específico é 0,948 , o que é extremamente alto. Isso indica que o modelo faz um bom trabalho ao prever se um jogador será convocado ou não.
Coordenadas da curva:
Esta última tabela apresenta a sensibilidade e especificidade 1 da curva ROC para diferentes limiares.
Por exemplo:
Se permitirmos que o limite seja 8,50 , isso significa que esperamos que qualquer jogador que marque menos de 8,50 pontos por jogo não seja convocado e que qualquer jogador que marque mais de 8,50 pontos por jogo seja convocado.
Usando isso como limite, nossa sensibilidade seria de 100% (já que cada jogador que marcou menos de 8,50 pontos por jogo de fato não foi convocado) e nossa especificidade 1 seria de 66,7% (já que 8 jogadores em 12 que marcaram mais de 8,50 pontos por jogo foram sorteados).
A tabela acima permite-nos ver a sensibilidade e a especificidade 1 para cada limiar potencial.