Como criar e interpretar uma curva roc no stata
A regressão logística é um método estatístico que usamos para ajustar um modelo de regressão quando a variável de resposta é binária. Para avaliar quão bem um modelo de regressão logística se ajusta a um conjunto de dados, podemos observar as duas métricas a seguir:
- Sensibilidade: a probabilidade de o modelo prever um resultado positivo para uma observação quando o resultado é realmente positivo.
- Especificidade: a probabilidade de o modelo prever um resultado negativo para uma observação quando o resultado é realmente negativo.
Uma maneira simples de visualizar essas duas métricas é criar uma curva ROC , que é um gráfico que mostra a sensibilidade e a especificidade de um modelo de regressão logística.
Este tutorial explica como criar e interpretar uma curva ROC no Stata.
Exemplo: curva ROC no Stata
Para este exemplo, usaremos um conjunto de dados chamado lbw , que contém as seguintes variáveis para 189 mães:
- baixo – se o bebê tem ou não baixo peso ao nascer. 1 = sim, 0 = não.
- idade – idade da mãe.
- fumaça – se a mãe fumou ou não durante a gravidez. 1 = sim, 0 = não.
Ajustaremos aos dados um modelo de regressão logística utilizando idade e tabagismo como variáveis explicativas e baixo peso ao nascer como variável resposta. A seguir, criaremos uma curva ROC para analisar quão bem o modelo se ajusta aos dados.
Etapa 1: Carregar e exibir dados.
Carregue os dados usando o seguinte comando:
use https://www.stata-press.com/data/r13/lbw
Obtenha uma compreensão rápida do conjunto de dados usando o seguinte comando:
resumir
Existem 11 variáveis diferentes no conjunto de dados, mas as únicas três que nos interessam são baixo nível, idade e tabagismo.
Passo 2: Ajustar o modelo de regressão logística.
Use o seguinte comando para ajustar o modelo de regressão logística:
logit de fumaça de baixa idade
Etapa 3: Crie a curva ROC.
Podemos criar a curva ROC para o modelo usando o seguinte comando:
lroc
Etapa 4: interprete a curva ROC.
Quando ajustamos um modelo de regressão logística, ele pode ser utilizado para calcular a probabilidade de uma determinada observação ter um resultado positivo, com base nos valores das variáveis preditoras.
Para determinar se uma observação deve ser classificada como positiva, podemos escolher um limite tal que as observações com uma probabilidade ajustada acima do limite sejam classificadas como positivas e todas as observações com uma probabilidade ajustada abaixo do limite sejam classificadas como negativas. .
Por exemplo, suponha que escolhemos um limite de 0,5. Isso significa que qualquer observação com probabilidade ajustada superior a 0,5 terá um resultado positivo, enquanto qualquer observação com probabilidade ajustada menor ou igual a 0,5 terá um resultado negativo.
A curva ROC nos mostra os valores de sensibilidade versus especificidade 1 conforme o valor limite muda de 0 para 1. Um modelo com alta sensibilidade e especificidade terá uma curva ROC que abrange o canto superior esquerdo do gráfico. Um modelo com baixa sensibilidade e baixa especificidade terá uma curva próxima à diagonal de 45 graus.
A AUC (área sob a curva) nos dá uma ideia da capacidade do modelo de distinguir entre resultados positivos e negativos. A AUC pode variar de 0 a 1. Quanto maior a AUC, melhor será o modelo na classificação correta dos resultados. No nosso exemplo, podemos ver que a AUC é 0,6111 .
Podemos usar AUC para comparar o desempenho de dois ou mais modelos. O modelo com maior AUC tem melhor desempenho.
Recursos adicionais
Como realizar regressão logística no Stata
Como interpretar a curva ROC e AUC de um modelo de regressão logística