Гомоскедастичність
У цій статті пояснюється, що таке гомоскедастичність у статистиці. Отже, ви знайдете визначення гомоскедастичності, причини відсутності гомоскедастичності в регресійній моделі та багато іншого, як це виправити.
Що таке гомоскедастичність?
Гомоскедастичність є характеристикою регресійної моделі, помилки пояснювальних змінних якої мають постійну дисперсію. Тобто, коли дисперсія помилки регресійної моделі постійна, зазначена модель виявляє гомоскедастичність і, отже, це гомоскедастична модель.
Пам’ятайте, що помилка (або залишок) визначається як різниця між реальним значенням і значенням, оціненим регресійною моделлю.
Під час запуску регресійної моделі ми отримаємо значення, відмінне від попереднього виразу для кожного спостереження. Таким чином, гомоскедастична статистична модель — це модель, у якій дисперсія обчислених помилок є постійною протягом усього спостереження.
Важливо, щоб регресійна модель демонструвала гомоскедастичність; насправді це одне з попередніх припущень регресійних моделей. Якщо залишки не є гомоскедастичними, краще переробити модель іншим способом, щоб отримати гомоскедастичність. В іншому випадку оцінка коефіцієнтів регресії , ймовірно, буде помилковою, а також виникнуть помилки під час перевірки гіпотез через прийняття нульових гіпотез, які насправді слід відхилити.
Причини відсутності гомоскедастичності
Найпоширенішими причинами, чому модель не має гомоскедастичності, є:
- Коли діапазон даних дуже широкий порівняно із середнім. Якщо в одній і тій же статистичній вибірці є дуже великі значення та дуже малі значення, ймовірно, що отримана модель регресії не є гомоскедастичною.
- Відсутність змінних у регресійній моделі також призводить до відсутності гомоскедастичності. Логічно, що якщо відповідна змінна не включена в модель, її варіація буде включена в залишки і не обов’язково буде фіксованою.
- Зміна в структурі може призвести до поганої відповідності моделі набору даних, і, отже, дисперсія залишків не є постійною.
- Коли деякі змінні мають набагато більші значення, ніж інші пояснювальні змінні, модель може не мати гомоскедастичності. У цьому випадку змінні можна релятивізувати, щоб вирішити проблему.
Однак є деякі випадки, які за своєю суттю важко представити як гомоскедастичність. Наприклад, якщо ми змоделюємо дохід людини з її витратами на їжу, багатші люди матимуть набагато більшу мінливість у своїх витратах на їжу, ніж бідні люди. Тому що багата людина їсть іноді в дорогих ресторанах, а іноді в дешевих, на відміну від бідної людини, яка завжди їсть в дешевих ресторанах. Тому в регресійній моделі важко досягти гомоскедастичності.
Виправлення даних для досягнення гомоскедастичності
Якщо отримана регресійна модель не є гомоскедастичною, для досягнення гомоскедастичності можна спробувати внести наступні виправлення:
- Обчисліть натуральний логарифм незалежної змінної, це зазвичай корисно, коли дисперсія залишків збільшується на графіку.
- Залежно від залишкового графіка інший тип перетворення незалежної змінної може бути більш практичним. Наприклад, якщо графік має форму параболи, ми можемо обчислити квадрат незалежної змінної та додати цю змінну до моделі.
- Для моделі також можна використовувати інші змінні; шляхом видалення або додавання змінної дисперсія залишків може бути змінена.
- Замість використання критерію найменших квадратів можна використовувати зважений критерій найменших квадратів.
Гомоскедастичність і гетероскедастичність
Нарешті, ми побачимо, яка різниця між гомоскедастичністю та гетероскедастичністю, оскільки це дві важливі статистичні концепції регресійних моделей.
Гетероскедастичність — це статистична характеристика, яка означає, що залишки регресійної моделі не мають постійної дисперсії, тому мінливість помилок не є однаковою на всьому графіку.
Різниця між гомоскедастичністю та гетероскедастичністю полягає в сталості дисперсії помилки. Гомоскедастичність передбачає, що дисперсія помилки постійна, тоді як гетероскедастичність означає, що дисперсія помилки непостійна.