Как интерпретировать статистику c модели логистической регрессии


В этом руководстве представлено простое объяснение того, как интерпретировать статистику C модели логистической регрессии.

Что такое логистическая регрессия?

Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Вот несколько примеров использования логистической регрессии:

  • Мы хотим знать, как физические упражнения, диета и вес влияют на вероятность сердечного приступа. Переменной ответа является сердечный приступ , и он имеет два потенциальных результата: сердечный приступ произойдет или не произойдет.
  • Мы хотим знать, как средний балл, балл ACT и количество пройденных курсов AP влияют на вероятность поступления в конкретный университет. Переменной ответа является принятие , и она имеет два потенциальных результата: принято или не принято.
  • Мы хотим знать, влияет ли количество слов и заголовок электронного письма на вероятность того, что электронное письмо является спамом. Переменной ответа является спам , и она имеет два потенциальных результата: спам или не спам.

Обратите внимание, что переменные-предикторы могут быть числовыми или категориальными; важно то, что переменная ответа является двоичной. В этом случае логистическая регрессия является подходящей моделью, которую можно использовать для объяснения взаимосвязи между переменными-предикторами и переменной ответа.

Как оценить адекватность модели логистической регрессии

После того как мы подгоняем модель логистической регрессии к набору данных, нас часто интересует, насколько хорошо модель соответствует данным. В частности, нас интересует способность модели точно предсказывать положительные и отрицательные результаты.

Чувствительность относится к вероятности того, что модель предсказывает положительный результат наблюдения, когда результат на самом деле положительный.

Специфичность относится к вероятности того, что модель предсказывает отрицательный результат наблюдения, когда результат на самом деле отрицательный.

Модель логистической регрессии идеально подходит для классификации наблюдений, если она имеет 100% чувствительность и специфичность, но на практике этого почти никогда не происходит.

После того, как мы подогнали модель логистической регрессии, ее можно использовать для расчета вероятности того, что данное наблюдение будет иметь положительный результат, на основе значений переменных-предикторов.

Чтобы определить, следует ли классифицировать наблюдение как положительное, мы можем выбрать такой порог, при котором наблюдения со скорректированной вероятностью выше порога классифицируются как положительные, а все наблюдения со скорректированной вероятностью ниже порога классифицируются как отрицательные. .

Например, предположим, что мы выбрали порог 0,5. Это означает, что любое наблюдение со скорректированной вероятностью больше 0,5 будет иметь положительный результат, в то время как любое наблюдение со скорректированной вероятностью меньше или равной 0,5 будет иметь отрицательный результат.

Построение кривой ROC

Одним из наиболее распространенных способов визуализации зависимости чувствительности от специфичности модели является построение кривой рабочей характеристики приемника ( ROC ), которая представляет собой график зависимости значений чувствительности от специфичности 1 как значения порога. точка меняется от 0 до 1:

Модель с высокой чувствительностью и специфичностью будет иметь кривую ROC, соответствующую левому верхнему углу графика. Модель с низкой чувствительностью и низкой специфичностью будет иметь кривую, близкую к диагонали 45 градусов.

AUC (площадь под кривой) дает нам представление о способности модели различать положительные и отрицательные результаты. AUC может варьироваться от 0 до 1. Чем выше AUC, тем лучше модель правильно классифицирует результаты.

Это означает, что модель с кривой ROC, охватывающей верхний левый угол графика, будет иметь большую площадь под кривой и, следовательно, будет моделью, которая хорошо справляется с правильной классификацией результатов. И наоборот, модель с кривой ROC, охватывающей диагональ 45 градусов, будет иметь небольшую площадь под кривой и, следовательно, будет моделью, которая не сможет хорошо классифицировать результаты.

Понимание статистики C

Статистика c , также известная как статистика согласованности , равна AUC (площадь под кривой) и имеет следующие интерпретации:

  • Значение меньше 0,5 указывает на плохую модель.
  • Значение 0,5 указывает на то, что модель классифицирует результаты не лучше, чем случайность.
  • Чем ближе значение к 1, тем точнее модель способна правильно классифицировать результаты.
  • Значение 1 означает, что модель идеально подходит для классификации результатов.

Итак, статистика C дает нам представление о том, насколько эффективна модель при правильной классификации результатов.

В клинических условиях можно рассчитать статистику C, взяв все возможные пары индивидуумов, т.е. индивидуума, получившего положительный результат, и индивидуума, получившего отрицательный результат. Тогда статистику c можно рассчитать как долю таких пар, в которых человек, получивший положительный результат, имел более высокую прогнозируемую вероятность получения результата, чем человек, который не испытал положительного результата.

Например, предположим, что мы подбираем модель логистической регрессии, используя переменные-предикторы, такие как возраст и артериальное давление , для прогнозирования вероятности сердечного приступа.

Чтобы найти c-статистику модели, мы смогли идентифицировать все возможные пары людей, состоящие из человека, у которого был сердечный приступ, и человека, у которого не было сердечного приступа. Затем статистику c можно рассчитать как долю этих пар, в которых человек, перенесший сердечный приступ, на самом деле имел более высокую прогнозируемую вероятность сердечного приступа по сравнению с человеком, который не перенес сердечного приступа. острое сердечно-сосудистое заболевание.

Заключение

В этой статье мы узнали следующее:

  • Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной.
  • Чтобы оценить степень соответствия модели логистической регрессии, мы можем посмотреть на чувствительность и специфичность , которые говорят нам, насколько хорошо модель способна правильно классифицировать результаты.
  • Чтобы визуализировать чувствительность и специфичность, мы можем создать кривую ROC .
  • AUC (площадь под кривой) показывает, насколько хорошо модель способна правильно классифицировать результаты. Когда кривая ROC охватывает верхний левый угол графика, это указывает на то, что модель успешно классифицирует результаты.
  • Статистика c равна AUC (площадь под кривой) и также может быть рассчитана путем рассмотрения всех возможных пар индивидуумов, т.е. индивидуума, получившего положительный результат, и индивидуума, получившего отрицательный результат. Тогда статистика c представляет собой долю таких пар, в которых человек, получивший положительный результат, имел более высокую прогнозируемую вероятность получения результата, чем человек, который не испытал положительного результата.
  • Чем ближе статистика C к 1, тем точнее модель способна классифицировать результаты.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *