Como criar uma curva roc no excel (passo a passo)
A regressão logística é um método estatístico que usamos para ajustar um modelo de regressão quando a variável de resposta é binária. Para avaliar quão bem um modelo de regressão logística se ajusta a um conjunto de dados, podemos observar as duas métricas a seguir:
- Sensibilidade: probabilidade de o modelo prever um resultado positivo para uma observação quando o resultado é realmente positivo. Isso também é chamado de “taxa positiva verdadeira”.
- Especificidade: a probabilidade de o modelo prever um resultado negativo para uma observação quando o resultado é realmente negativo. Isso também é chamado de “taxa verdadeiramente negativa”.
Uma maneira de visualizar essas duas medições é criar uma curva ROC , que significa curva “característica operacional do receptor”. Este é um gráfico que mostra a sensibilidade e especificidade de um modelo de regressão logística.
O exemplo passo a passo a seguir mostra como criar e interpretar uma curva ROC no Excel.
Passo 1: Insira os dados
Vamos começar inserindo alguns dados brutos:
Etapa 2: calcular dados cumulativos
Então vamos usar a seguinte fórmula para calcular os valores cumulativos para as categorias Aprovado e Reprovado:
- Valores cumulativos de sucesso: =SUM($B$3:B3)
- Valores cumulativos de falha: =SUM($C$3:C3)
Em seguida, copiaremos e colaremos essas fórmulas em cada célula da coluna D e da coluna E:
Etapa 3: Calcular a taxa de falsos positivos e a taxa de verdadeiros positivos
A seguir, calcularemos a taxa de falsos positivos (FPR), a taxa de verdadeiros positivos (TPR) e a área sob a curva (AUC) usando as seguintes fórmulas:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(F3-F4)*G3
Em seguida, copiaremos e colaremos essas fórmulas em cada célula das colunas F, G e H:
Passo 4: Crie a curva ROC
Para criar a curva ROC, iremos destacar cada valor no intervalo F3:G14 .
A seguir, clicaremos na guia Inserir na faixa superior e, em seguida, clicaremos em Inserir Dispersão (X, Y) para criar o seguinte caminho:
Etapa 5: Calcule a AUC
Quanto mais próxima a curva estiver do canto superior esquerdo do gráfico, melhor o modelo será capaz de classificar os dados em categorias.
Como podemos ver no gráfico acima, este modelo de regressão logística faz um ótimo trabalho ao classificar os dados em categorias.
Para quantificar isso, podemos calcular a AUC (área sob a curva), que nos diz quanto do gráfico está sob a curva.
Quanto mais próximo o AUC estiver de 1, melhor será o modelo. Um modelo com AUC igual a 0,5 não é melhor do que um modelo que faz classificações aleatórias.
Para calcular a AUC da curva, podemos simplesmente somar todos os valores da coluna H:
A AUC acaba sendo 0,802662 . Este valor é bastante elevado, indicando que o modelo faz um bom trabalho ao classificar os dados nas categorias “Aprovado” e “Reprovado”.
Recursos adicionais
Os tutoriais a seguir explicam como criar outros gráficos comuns no Excel:
Como plotar um CDF no Excel
Como criar uma curva de sobrevivência no Excel
Como criar um gráfico de controle estatístico de processo no Excel