Розуміння гетероскедастичності в регресійному аналізі
У регресійному аналізі гетероскедастичність (іноді її називають гетероскедастичністю) відноситься до нерівномірного розподілу залишків або помилок. Точніше, це той випадок, коли є систематична зміна розподілу залишків у діапазоні виміряних значень.
Гетероскедастичність є проблемою, оскільки звичайна регресія найменших квадратів (OLS) припускає, що залишки походять від популяції, яка має гомоскедастичність , тобто постійну дисперсію.
Коли гетероскедастичність присутня в регресійному аналізі, у результати аналізу стає важко повірити. Зокрема, гетероскедастичність збільшує дисперсію оцінок коефіцієнта регресії, але регресійна модель не враховує це.
Це значно підвищує ймовірність того, що регресійна модель стверджуватиме, що термін у моделі є статистично значущим, хоча насправді це не так.
У цьому посібнику пояснюється, як виявити гетероскедастичність, причини гетероскедастичності та потенційні шляхи вирішення проблеми гетероскедастичності.
Як виявити гетероскедастичність
Найпростіший спосіб виявити гетероскедастичність – це використати підігнаний графік значення/залишок .
Після підгонки лінії регресії до набору даних можна створити діаграму розсіювання, яка показує підібрані значення моделі проти залишків цих підігнаних значень.
Діаграма розсіювання нижче показує типовий графік підігнаного значення проти залишку, в якому присутня гетероскедастичність.
Зверніть увагу, як залишки розповсюджуються все більше і більше в міру збільшення підігнаних значень. Ця форма «конуса» є ознакою гетероскедастичності.
Які причини гетероскедастичності?
Гетероскедастичність природно виникає в наборах даних, де існує широкий діапазон спостережуваних значень даних. Наприклад:
- Розглянемо набір даних, що включає річний дохід і витрати 100 000 людей у Сполучених Штатах. Для людей з нижчими доходами варіативність відповідних витрат буде нижчою, оскільки цим людям, швидше за все, вистачить грошей лише на те, що потрібно. Для осіб з вищими доходами буде більша варіабельність відповідних витрат, оскільки вони матимуть більше грошей, щоб витратити, якщо вони захочуть. Деякі люди з вищими доходами вирішать витрачати більшу частину свого доходу, тоді як інші вирішать бути ощадливими та витрачати лише частину. Таким чином, варіабельність витрат серед цих осіб з вищим доходом буде за своєю суттю вищою.
- Розглянемо набір даних, який включає населення та кількість флористів у 1000 різних містах Сполучених Штатів. У малонаселених містах може бути звичайним явище лише одного або двох флористів. Але в більш густонаселених містах кількість флористів буде набагато мінливішою. У цих містах може бути від 10 до 100 магазинів. Це означає, що коли ми створюємо регресійний аналіз і використовуємо сукупність для прогнозування кількості флористів, за своєю суттю буде більша мінливість залишків для більш густонаселених міст.
Деякі набори даних просто більш схильні до гетероскедастичності, ніж інші.
Як виправити гетероскедастичність
Існує три поширених способи корекції гетероскедастичності:
1. Перетворення залежної змінної
Один із способів виправити гетероскедастичність – певним чином трансформувати залежну змінну. Звичайним перетворенням є просто взяття журналу залежної змінної.
Наприклад, якщо ми використовуємо чисельність населення (незалежну змінну), щоб передбачити кількість флористів у місті (залежна змінна), натомість ми можемо спробувати використати чисельність населення, щоб передбачити логарифм кількості флористів у місті.
Використання логарифму залежної змінної, а не початкової залежної змінної, часто призводить до зникнення гетероскедастичності.
2. Перевизначте залежну змінну
Інший спосіб виправити гетероскедастичність – перевизначити залежну змінну. Поширеним способом зробити це є використання ставки для залежної змінної, а не вихідного значення.
Наприклад, замість того, щоб використовувати чисельність населення для прогнозування кількості флористів у місті, ми можемо використовувати чисельність населення для прогнозування кількості флористів на душу населення.
У більшості випадків це зменшує мінливість, яка природно виникає у великих популяціях, оскільки ми вимірюємо кількість флористів на людину, а не саму кількість флористів.
3. Використовуйте зважену регресію
Іншим способом виправлення гетероскедастичності є використання зваженої регресії. Цей тип регресії призначає вагу кожній точці даних на основі дисперсії її підігнаного значення.
По суті, це дає низькі ваги точкам даних, які мають більшу дисперсію, зменшуючи їхні залишкові квадрати. Якщо використовуються відповідні ваги, це може усунути проблему гетероскедастичності.
Висновок
Гетероскедастичність є досить поширеною проблемою, коли йдеться про регресійний аналіз, оскільки багато наборів даних за своєю суттю піддаються непостійній дисперсії.
Однак, використовуючи діаграму підігнаного значення проти залишкової ділянки , можна досить легко виявити гетероскедастичність.
І шляхом перетворення залежної змінної, перевизначення залежної змінної або використання зваженої регресії часто можна усунути проблему гетероскедастичності.