Як виконати тест уайта в r (з прикладами)
Критерій Уайта використовується для визначення наявності гетероскедастичності в регресійній моделі.
Гетероскедастичність відноситься до нерівномірної дисперсії залишків на різних рівнях змінної відповіді в регресійній моделі, що порушує одне з ключових припущень лінійної регресії про те, що залишки однаково розподілені на кожному рівні змінної відповіді.
У цьому підручнику пояснюється, як виконати тест Уайта в R, щоб визначити, чи є гетероскедастичність проблемою в даній моделі регресії.
Приклад: білий тест у R
У цьому прикладі ми підберемо модель множинної лінійної регресії за допомогою вбудованого набору даних R mtcars.
Після підгонки моделі ми використаємо функцію bptest із бібліотеки lmtest , щоб виконати тест Уайта, щоб визначити наявність гетероскедастичності.
Крок 1. Підберіть регресійну модель.
По-перше, ми підберемо регресійну модель, використовуючи mpg як змінну відповіді та disp і hp як дві пояснювальні змінні.
#load the dataset data(mtcars) #fit a regression model model <- lm(mpg~disp+hp, data=mtcars) #view model summary summary(model) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 30.735904 1.331566 23.083 < 2nd-16 *** available -0.030346 0.007405 -4.098 0.000306 *** hp -0.024840 0.013385 -1.856 0.073679 . --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.127 on 29 degrees of freedom Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309 F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09
Крок 2: Виконайте тест Уайта.
Далі ми використаємо наступний синтаксис для виконання тесту Уайта, щоб визначити наявність гетероскедастичності:
#load lmtest library library(lmtest) #perform White's test bptest(model, ~ disp*hp + I(disp^2) + I(hp^2), data = mtcars) studentized Breusch-Pagan test data: model BP = 7.0766, df = 5, p-value = 0.215
Ось як інтерпретувати результат:
- Статистика тесту X2 = 7,0766 .
- Ступенів свободи дорівнює 5 .
- Відповідне значення p становить 0,215 .
Тест Уайта використовує такі нульові та альтернативні гіпотези:
- Null (H 0 ) : присутній гомоскедастичність.
- Альтернатива ( HA ): присутня гетероскедастичність.
Оскільки p-значення не менше 0,05, ми не можемо відхилити нульову гіпотезу. У нас немає достатніх доказів, щоб стверджувати, що гетероскедастичність присутня в регресійній моделі.
Що робити далі
Якщо вам не вдалося відхилити нульову гіпотезу тесту Уайта, то гетероскедастичність відсутня, і ви можете продовжити інтерпретацію результату початкової регресії.
Однак якщо ви відкидаєте нульову гіпотезу, це означає, що гетероскедастичність присутня в даних. У цьому випадку стандартні помилки, відображені в таблиці результатів регресії, можуть бути ненадійними.
Існує кілька поширених способів вирішення цієї проблеми, зокрема:
1. Перетворення змінної відповіді.
Ви можете спробувати виконати перетворення змінної відповіді, наприклад взявши логарифм, квадратний або кубічний корінь змінної відповіді. Як правило, це може призвести до зникнення гетероскедастичності.
2. Використовуйте зважену регресію.
Зважена регресія призначає вагу кожній точці даних на основі дисперсії її підігнаного значення. По суті, це дає низькі ваги точкам даних, які мають більшу дисперсію, зменшуючи їхні залишкові квадрати. Якщо використовуються відповідні ваги, це може усунути проблему гетероскедастичності.