Як виконати тест уайта в sas
Критерій Уайта використовується для визначення наявності гетероскедастичності в регресійній моделі.
Гетероскедастичність відноситься до нерівномірної дисперсії залишків на різних рівнях змінної відповіді в регресійній моделі, що порушує одне з ключових припущень лінійної регресії про те, що залишки однаково розподілені на кожному рівні змінної відповіді.
У цьому підручнику пояснюється, як виконати тест Уайта в SAS, щоб визначити, чи є гетероскедастичність проблемою в даній моделі регресії.
Приклад: білий тест у SAS
Припустімо, ми хочемо підібрати модель множинної лінійної регресії, яка використовує кількість годин, витрачених на навчання, і кількість складених практичних іспитів, щоб передбачити оцінку студентів на підсумкових іспитах:
Оцінка за іспит = β 0 + β 1 (годин) + β 2 (підготовчі іспити)
Спочатку ми використаємо наступний код, щоб створити набір даних, що містить цю інформацію для 20 студентів:
/*create dataset*/ data exam_data; input hours prep_exams score; datalines ; 1 1 76 2 3 78 2 3 85 4 5 88 2 2 72 1 2 69 5 1 94 4 1 94 2 0 88 4 3 92 4 4 90 3 3 75 6 2 90 5 4 90 3 4 82 4 4 85 6 5 90 2 1 83 1 0 62 2 1 76 ; run ; /*view dataset*/ proc print data =exam_data;
Далі ми використаємо proc reg , щоб відповідати цій моделі множинної лінійної регресії, а також параметр spec для виконання тесту Уайта на гетероскедастичність:
/*fit regression model and perform White's test*/
proc reg data =exam_data;
model score = hours prep_exams / spec ;
run ;
quit ;
Остання таблиця результатів показує результати тесту Уайта.
З цієї таблиці ми бачимо, що статистика хі-квадрат становить 3,54 , а відповідне значення p — 0,6175 .
Тест Уайта використовує такі нульові та альтернативні гіпотези:
- Null (H 0 ) : гетероскедастичність відсутня.
- Альтернатива ( HA ): присутня гетероскедастичність.
Оскільки p-значення не менше 0,05, ми не можемо відхилити нульову гіпотезу.
Це означає, що ми не маємо достатніх доказів, щоб стверджувати, що гетероскедастичність присутня в регресійній моделі.
Тому можна безпечно інтерпретувати стандартні помилки оцінок коефіцієнтів у підсумковій таблиці регресії.
Що робити далі
Якщо вам не вдалося відхилити нульову гіпотезу тесту Уайта, то гетероскедастичності немає, і ви можете продовжити інтерпретацію результату вихідної регресії.
Однак якщо ви відкидаєте нульову гіпотезу, це означає, що гетероскедастичність присутня в даних. У цьому випадку стандартні помилки, відображені в таблиці результатів регресії, можуть бути ненадійними.
Існує кілька поширених способів вирішення цієї проблеми, зокрема:
1. Перетворення змінної відповіді. Ви можете спробувати виконати перетворення змінної відповіді.
Наприклад, ви можете використовувати змінну відповіді журналу замість початкової змінної відповіді.
Загалом реєстрація змінної відповіді є ефективним способом зникнення гетероскедастичності.
Іншим поширеним перетворенням є використання квадратного кореня зі змінної відповіді.
2. Використовуйте зважену регресію. Цей тип регресії призначає вагу кожній точці даних на основі дисперсії її підігнаного значення.
Це дає невеликі ваги точкам даних, які мають більшу дисперсію, зменшуючи їхні залишкові квадрати.
Якщо використовуються відповідні ваги, це може усунути проблему гетероскедастичності.