Як інтерпретувати статистику c моделі логістичної регресії
Цей підручник містить просте пояснення того, як інтерпретувати статистику C моделі логістичної регресії.
Що таке логістична регресія?
Логістична регресія – це статистичний метод, який ми використовуємо для підгонки регресійної моделі, коли змінна відповіді є двійковою. Ось кілька прикладів використання логістичної регресії:
- Ми хочемо знати, як фізичні вправи, дієта та вага впливають на ймовірність серцевого нападу. Змінною відповіддю є серцевий напад , і він має два потенційних наслідки: серцевий напад відбувається або його не відбувається.
- Ми хочемо знати, як середній бал, бал ACT і кількість пройдених курсів AP впливають на ймовірність бути прийнятим до певного університету. Змінною відповіддю є прийняття , і воно має два потенційних результати: прийнято або не прийнято.
- Ми хочемо знати, чи впливають кількість слів і назва електронного листа на ймовірність того, що електронний лист є спамом. Змінна відповіді є спамом і має два потенційні результати: спам або не спам.
Зауважте, що змінні предиктора можуть бути чисельними або категоріальними; важливо те, що змінна відповіді є двійковою. Коли це так, логістична регресія є відповідною моделлю для пояснення зв’язку між змінними предиктора та змінною відповіді.
Як оцінити адекватність моделі логістичної регресії
Після того, як ми адаптуємо модель логістичної регресії до набору даних, нас часто цікавить, наскільки модель відповідає даним. Зокрема, нас цікавить здатність моделі точно передбачати позитивні та негативні результати.
Чутливість відноситься до ймовірності того, що модель передбачає позитивний результат для спостереження, коли результат насправді позитивний.
Специфічність відноситься до ймовірності того, що модель передбачає негативний результат для спостереження, коли результат насправді негативний.
Модель логістичної регресії ідеально підходить для класифікації спостережень, якщо вона має 100% чутливість і специфічність, але на практиці цього майже ніколи не відбувається.
Після того, як ми підібрали модель логістичної регресії, її можна використовувати для розрахунку ймовірності того, що дане спостереження матиме позитивний результат, на основі значень змінних предикторів.
Щоб визначити, чи слід класифікувати спостереження як позитивне, ми можемо вибрати поріг таким чином, що спостереження зі скоригованою ймовірністю вище порогу класифікуються як позитивні, а всі спостереження зі скоригованою ймовірністю нижче порогу класифікуються як негативні. .
Наприклад, припустімо, що ми вибираємо поріг 0,5. Це означає, що будь-яке спостереження зі скоригованою ймовірністю більше 0,5 матиме позитивний результат, тоді як будь-яке спостереження зі скоригованою ймовірністю менше або дорівнює 0,5 матиме негативний результат.
Побудова кривої ROC
Одним із найпоширеніших способів візуалізації чутливості та специфічності моделі є побудова кривої робочих характеристик приймача ( ROC ), яка є графіком значень чутливості та специфічності 1 як значення порогу. бал змінюється від 0 до 1:
Модель з високою чутливістю та специфічністю матиме криву ROC, яка відповідає верхньому лівому куту графіка. Модель з низькою чутливістю та низькою специфічністю матиме криву, близьку до діагоналі 45 градусів.
AUC (площа під кривою) дає нам уявлення про здатність моделі розрізняти позитивні та негативні результати. AUC може коливатися від 0 до 1. Що вищий AUC, то краще модель правильно класифікує результати.
Це означає, що модель із кривою ROC, яка обіймає верхній лівий кут графіка, матиме високу площу під кривою і, отже, буде моделлю, яка добре справляється з правильною класифікацією результатів. І навпаки, модель із кривою ROC, яка обіймає діагональ 45 градусів, матиме низьку площу під кривою, а тому буде моделлю, яка погано класифікує результати.
Розуміння статистики C
Статистика c , також відома як статистика конкордації , дорівнює AUC (площа під кривою) і має такі інтерпретації:
- Значення менше 0,5 вказує на погану модель.
- Значення 0,5 вказує на те, що модель класифікує результати не краще, ніж випадковість.
- Чим ближче значення до 1, тим більше модель здатна правильно класифікувати результати.
- Значення 1 означає, що модель ідеально підходить для класифікації результатів.
Отже, статистика C дає нам уявлення про те, наскільки ефективна модель у правильній класифікації результатів.
У клінічних умовах можна обчислити статистику C, взявши всі можливі пари індивідів, тобто індивіда, який отримав позитивний результат, і індивіда, який отримав негативний результат. Тоді статистику c можна розрахувати як частку таких пар, у яких особа, яка відчула позитивний результат, мала вищу прогнозовану ймовірність отримати результат, ніж особа, яка не відчула позитивного результату.
Наприклад, припустімо, що ми використовуємо логістичну регресійну модель, використовуючи передбачувані змінні, такі як вік і артеріальний тиск, щоб передбачити ймовірність серцевого нападу.
Щоб знайти c-статистику моделі, ми змогли ідентифікувати всі можливі пари індивідуумів, що складалися з індивідуума, який мав серцевий напад, і індивідуума, який не мав серцевого нападу. Тоді статистику c можна розрахувати як частку цих пар, у яких індивід, який переніс серцевий напад, насправді мав вищу прогнозовану ймовірність серцевого нападу порівняно з особою, яка не перенесла серцевий напад. інфаркт.
Висновок
У цій статті ми дізналися наступне:
- Логістична регресія – це статистичний метод, який ми використовуємо для підгонки регресійної моделі, коли змінна відповіді є двійковою.
- Щоб оцінити відповідність моделі логістичної регресії, ми можемо подивитися на чутливість і специфічність , які говорять нам, наскільки добре модель здатна правильно класифікувати результати.
- Щоб візуалізувати чутливість і специфічність, ми можемо створити криву ROC .
- AUC (площа під кривою) показує, наскільки добре модель здатна правильно класифікувати результати. Коли крива ROC обіймає верхній лівий кут графіка, це означає, що модель успішно класифікує результати.
- Статистика c дорівнює AUC (площі під кривою) і також може бути розрахована шляхом взяття всіх можливих пар індивідуумів, тобто індивідуума, який отримав позитивний результат, і індивідуума, який отримав негативний результат. Тоді статистика c — це частка таких пар, у яких особа, яка відчула позитивний результат, мала вищу прогнозовану ймовірність отримати результат, ніж особа, яка не відчула позитивного результату.
- Чим ближче C-статистика до 1, тим точніше модель здатна класифікувати результати.