Como interpretar a estatística c de um modelo de regressão logística


Este tutorial fornece uma explicação simples sobre como interpretar a estatística C de um modelo de regressão logística.

O que é regressão logística?

A regressão logística é um método estatístico que usamos para ajustar um modelo de regressão quando a variável de resposta é binária. Aqui estão alguns exemplos de uso de regressão logística:

  • Queremos saber como o exercício, a dieta e o peso afetam a probabilidade de ter um ataque cardíaco. A variável de resposta é o ataque cardíaco e tem dois resultados potenciais: ocorre ou não ocorre um ataque cardíaco.
  • Queremos saber como o GPA, a pontuação do ACT e o número de cursos AP realizados impactam a probabilidade de ser aceito em uma determinada universidade. A variável resposta é a aceitação e tem dois resultados potenciais: aceito ou não aceito.
  • Queremos saber se a contagem de palavras e o título do e-mail afetam a probabilidade de um e-mail ser spam. A variável de resposta é spam e tem dois resultados potenciais: spam ou não spam.

Observe que as variáveis preditoras podem ser numéricas ou categóricas; o que é importante é que a variável de resposta seja binária. Quando for esse o caso, a regressão logística é um modelo apropriado para explicar a relação entre as variáveis preditoras e a variável resposta.

Como avaliar a adequação de um modelo de regressão logística

Depois de ajustarmos um modelo de regressão logística a um conjunto de dados, muitas vezes estamos interessados em saber até que ponto o modelo se ajusta aos dados. Especificamente, estamos interessados na capacidade do modelo de prever com precisão resultados positivos e negativos.

Sensibilidade refere-se à probabilidade de o modelo prever um resultado positivo para uma observação quando o resultado é realmente positivo.

A especificidade refere-se à probabilidade de o modelo prever um resultado negativo para uma observação quando o resultado é realmente negativo.

Um modelo de regressão logística é perfeito para classificar observações se tiver 100% de sensibilidade e especificidade, mas na prática isso quase nunca acontece.

Uma vez ajustado o modelo de regressão logística, ele pode ser utilizado para calcular a probabilidade de uma determinada observação ter um resultado positivo, com base nos valores das variáveis preditoras.

Para determinar se uma observação deve ser classificada como positiva, podemos escolher um limite tal que as observações com uma probabilidade ajustada acima do limite sejam classificadas como positivas e todas as observações com uma probabilidade ajustada abaixo do limite sejam classificadas como negativas. .

Por exemplo, suponha que escolhemos um limite de 0,5. Isso significa que qualquer observação com probabilidade ajustada maior que 0,5 terá um resultado positivo, enquanto qualquer observação com probabilidade ajustada menor ou igual a 0,5 terá um resultado negativo.

Traçando a curva ROC

Uma das maneiras mais comuns de visualizar a sensibilidade versus especificidade de um modelo é traçar uma curva Receiver Operating Characteristic ( ROC ), que é um gráfico de valores de sensibilidade versus especificidade 1 como o valor do limite. o ponto vai de 0 a 1:

Um modelo com alta sensibilidade e especificidade terá uma curva ROC que se ajusta ao canto superior esquerdo do gráfico. Um modelo com baixa sensibilidade e baixa especificidade terá uma curva próxima à diagonal de 45 graus.

A AUC (área sob a curva) nos dá uma ideia da capacidade do modelo de distinguir entre resultados positivos e negativos. A AUC pode variar de 0 a 1. Quanto maior a AUC, melhor será o modelo na classificação correta dos resultados.

Isso significa que um modelo com uma curva ROC que abraça o canto superior esquerdo do gráfico teria uma área alta sob a curva e seria, portanto, um modelo que faz um bom trabalho ao classificar corretamente os resultados. Por outro lado, um modelo com uma curva ROC que abraça a diagonal de 45 graus teria uma área baixa sob a curva e seria, portanto, um modelo que não faz um bom trabalho de classificação de resultados.

Compreendendo a estatística C

A estatística c , também conhecida como estatística de concordância , é igual à AUC (área sob a curva) e tem as seguintes interpretações:

  • Um valor inferior a 0,5 indica um modelo ruim.
  • Um valor de 0,5 indica que o modelo não é melhor na classificação de resultados do que o acaso.
  • Quanto mais próximo o valor estiver de 1, mais o modelo será capaz de classificar corretamente os resultados.
  • Um valor 1 significa que o modelo é perfeito para classificar resultados.

Portanto, uma estatística C nos dá uma ideia de quão eficaz é um modelo na classificação correta dos resultados.

Num ambiente clínico, é possível calcular a estatística C tomando todos os pares possíveis de indivíduos, ou seja, um indivíduo que obteve um resultado positivo e um indivíduo que obteve um resultado negativo. Então, a estatística c pode ser calculada como a proporção de pares em que o indivíduo que experimentou um resultado positivo teve uma probabilidade prevista mais alta de experimentar o resultado do que o indivíduo que não experimentou o resultado positivo.

Por exemplo, suponha que ajustamos um modelo de regressão logística usando variáveis preditoras como idade e pressão arterial para prever a probabilidade de um ataque cardíaco.

Para encontrar a estatística c do modelo, conseguimos identificar todos os pares possíveis de indivíduos, constituídos por um indivíduo que teve infarto e um indivíduo que não teve infarto. Então a estatística c pode ser calculada como a proporção desses pares em que o indivíduo que sofreu o ataque cardíaco realmente teve uma probabilidade prevista maior de sofrer um ataque cardíaco em comparação com o indivíduo que não sofreu o ataque cardíaco. ataque cardíaco.

Conclusão

Neste artigo aprendemos o seguinte:

  • A regressão logística é um método estatístico que usamos para ajustar um modelo de regressão quando a variável de resposta é binária.
  • Para avaliar a qualidade do ajuste de um modelo de regressão logística, podemos observar a sensibilidade e a especificidade , que nos dizem quão bem o modelo é capaz de classificar corretamente os resultados.
  • Para visualizar a sensibilidade e a especificidade, podemos criar uma curva ROC .
  • A AUC (área sob a curva) indica quão bem o modelo é capaz de classificar corretamente os resultados. Quando uma curva ROC abraça o canto superior esquerdo do gráfico, isso indica que o modelo está classificando os resultados com sucesso.
  • A estatística c é igual à AUC (área sob a curva) e também pode ser calculada tomando todos os pares possíveis de indivíduos, ou seja, um indivíduo que obteve um resultado positivo e um indivíduo que obteve um resultado negativo. Então, a estatística c é a proporção de pares em que o indivíduo que experimentou um resultado positivo teve uma probabilidade prevista mais alta de experimentar o resultado do que o indivíduo que não experimentou o resultado positivo.
  • Quanto mais próxima uma estatística C estiver de 1, mais corretamente o modelo será capaz de classificar os resultados.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *