Como interpretar uma curva roc (com exemplos)


A regressão logística é um método estatístico que usamos para ajustar um modelo de regressão quando a variável de resposta é binária. Para avaliar quão bem um modelo de regressão logística se ajusta a um conjunto de dados, podemos observar as duas métricas a seguir:

  • Sensibilidade: probabilidade de o modelo prever um resultado positivo para uma observação quando o resultado é realmente positivo.
  • Especificidade: probabilidade de o modelo prever um resultado negativo para uma observação quando o resultado é realmente negativo.

Uma maneira simples de visualizar essas duas métricas é criar uma curva ROC , que é um gráfico que mostra a sensibilidade e a especificidade de um modelo de regressão logística.

Este tutorial explica como criar e interpretar uma curva ROC.

Como criar uma curva ROC

Depois de ajustarmos um modelo de regressão logística, podemos usar o modelo para classificar as observações em uma de duas categorias.

Por exemplo, poderíamos classificar as observações como “positivas” ou “negativas”.

A taxa de verdadeiros positivos representa a proporção de observações que deveriam ser positivas quando realmente o são.

Por outro lado, a taxa de falsos positivos representa a proporção de observações que deveriam ser positivas, mas na verdade são negativas.

Quando criamos uma curva ROC, traçamos os pares de taxa de verdadeiro positivo versus taxa de falso positivo para cada limite de decisão possível de um modelo de regressão logística.

Como interpretar uma curva ROC

Quanto mais próxima a curva ROC estiver do canto superior esquerdo do gráfico, melhor o modelo será capaz de classificar os dados em categorias.

Para quantificar isso, podemos calcular a AUC (área sob a curva), que nos diz quanto do gráfico está sob a curva.

Quanto mais próximo o AUC estiver de 1, melhor será o modelo.

Um modelo com AUC igual a 0,5 seria uma linha perfeitamente diagonal e representaria um modelo que não é melhor do que um modelo que faz classificações aleatórias.

É particularmente útil calcular a AUC para modelos de regressão logística múltipla porque nos permite ver qual modelo é melhor para fazer previsões.

Por exemplo, suponha que ajustamos três modelos de regressão logística diferentes e traçamos as seguintes curvas ROC para cada modelo:

Suponha que calculemos a AUC para cada modelo da seguinte forma:

  • Modelo A: AUC = 0,923
  • Modelo B: AUC = 0,794
  • Modelo C: AUC = 0,588

O modelo A possui a AUC mais alta, indicando que possui a maior área sob a curva e é o melhor modelo para classificar corretamente as observações em categorias.

Recursos adicionais

Os tutoriais a seguir explicam como criar curvas ROC usando diferentes softwares estatísticos:

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *