Що таке хороше значення r-квадрат?


R-квадрат визначає, наскільки модель лінійної регресії «відповідає» набору даних. R-квадрат, який також зазвичай називають коефіцієнтом детермінації , є часткою дисперсії у змінній відповіді, яку можна пояснити змінною предиктора.

Значення R-квадрат може коливатися від 0 до 1. Значення 0 вказує на те, що змінна відповіді взагалі не може бути пояснена змінною предиктора. Значення 1 вказує на те, що змінна відповіді може бути ідеально пояснена безпомилково змінною предиктора.

На практиці ви, ймовірно, ніколи не побачите значення 0 або 1 для R-квадрату. Натомість ви, швидше за все, зустрінете значення від 0 до 1.

Наприклад, припустімо, що у вас є набір даних, що містить кількість населення та кількість флористів у 30 різних містах. Ви підбираєте просту модель лінійної регресії до набору даних, використовуючи чисельність населення як змінну прогностику та квітникарів як змінну відповіді. У результаті результатів регресії ви бачите, що R 2 = 0,2. Це вказує на те, що 20% коливань у кількості квітникарів можна пояснити розміром населення.

Це підводить нас до важливого питання: чи це «хороше» значення для R-квадрату?

Відповідь на це запитання залежить від вашої мети щодо регресійної моделі. Знати:

1. Чи хотіли б ви пояснити взаємозв’язок між предиктором(ами) та змінною відповіді?

ЗОЛОТО

2. Ви хочете передбачити змінну відповіді?

Залежно від мети, відповідь на запитання “Що є хорошим значенням R у квадраті?” ” буде іншим.

Поясніть зв’язок між предиктором(ами) та змінною відповіді

Якщо ваша головна мета вашої регресійної моделі полягає в тому, щоб пояснити взаємозв’язок між предиктором(ами) і змінною відповіді, R-квадрат практично не має значення.

Наприклад, скажімо, у наведеному вище прикладі регресії ви бачите, що коефіцієнт прогностичного розміру сукупності становить 0,005, і він є статистично значущим. Це означає, що збільшення чисельності населення на одиницю пов’язане із середнім збільшенням кількості флористів у даному місті на 0,005. Крім того, чисельність населення є статистично значущим показником кількості флористів у місті.

Чи дорівнює R-квадрат цієї регресійної моделі 0,2 чи 0,9, ця інтерпретація не змінюється. Оскільки вас просто цікавить співвідношення між чисельністю популяції та кількістю флористів, вам не потрібно надто турбуватися про значення R-квадрат моделі.

Передбачте змінну відповіді

Якщо ваша головна мета — точно передбачити значення змінної відповіді за допомогою змінної предиктора, то R-квадрат є важливим.

Загалом, чим більше значення R-квадрат, тим точніше змінні предикторів здатні передбачити значення змінної відповіді.

Значення, необхідне для значення R-квадрат, залежить від необхідної точності. Наприклад, у наукових дослідженнях може знадобитися, щоб R-квадрат був більшим за 0,95, щоб модель регресії вважалася надійною. В інших областях R-квадрат лише 0,3 може бути достатнім, якщо існує надзвичайна мінливість у наборі даних.

Щоб знати, що вважається «хорошим» значенням R-квадрат, вам потрібно буде дослідити, які значення R-квадрат є загальноприйнятими у вашій конкретній галузі навчання. Якщо ви виконуєте регресійний аналіз для клієнта чи компанії, ви можете запитати їх, що вважається прийнятним значенням R-квадрат.

Інтервали прогнозування

Інтервал передбачення визначає діапазон, у який може потрапити нове спостереження на основі значень змінних предиктора. Більш вузькі інтервали передбачення вказують на те, що змінні предиктора можуть точніше передбачити змінну відповіді.

Часто інтервал передбачення може бути кориснішим, ніж значення R-квадрат, оскільки він дає вам точний діапазон значень, у межах якого може потрапити нове спостереження. Це особливо корисно, якщо вашою основною метою регресії є прогнозування нових значень змінної відповіді.

Наприклад, припустимо, що населення в 40 000 дає прогнозований інтервал від 30 до 35 флористів у певному місті. Це може вважатися або не вважатися прийнятним діапазоном значень, залежно від використання регресійної моделі.

Висновок

Загалом, чим більше значення R-квадрат, тим точніше змінні предикторів здатні передбачити значення змінної відповіді.

Наскільки хорошим має бути значення R-квадрат, щоб вважатися «хорошим», залежить від домену. Деякі поля вимагають вищої точності, ніж інші.

Щоб дізнатися, що вважається «хорошим» значенням R-квадрат, подумайте про те, що є загальноприйнятим у сфері, в якій ви працюєте, запитайте когось із конкретними знаннями в певній галузі або запитайте клієнта/клієнта. компанії, для якої ви виконуєте регресійний аналіз. за те, що вони вважають прийнятним.

Якщо ви хочете пояснити зв’язок між предиктором і змінною відповіді, R-квадрат в основному не має значення, оскільки він не впливає на інтерпретацію регресійної моделі.

Якщо ви хочете передбачити змінну відповіді, інтервали передбачення зазвичай більш корисні, ніж значення R-квадрат.

Подальше читання:

Коефіцієнт кореляції Пірсона
Вступ до простої лінійної регресії

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *