Що таке впливове спостереження в статистиці?


У статистиці впливове спостереження — це спостереження в наборі даних, видалення якого суттєво змінює оцінки коефіцієнтів регресійної моделі.

Найпоширенішим способом вимірювання впливу спостережень є використання відстані Кука , яка кількісно визначає, наскільки всі підігнані значення в регресійній моделі змінюються, коли i- те спостереження видаляється.

Як правило, будь-яке спостереження з відстанню Кука, що перевищує 1, вважається спостереженням із великим левериджем.

У наступному прикладі показано, як обчислити та інтерпретувати відстань Кука для певного набору даних, щоб виявити потенційно впливові спостереження.

Приклад: виявлення впливових спостережень

Припустимо, ми маємо наступний набір даних із 14 значеннями:

Тепер припустімо, що ми підходимо до моделі простої лінійної регресії . Результат регресії представлений нижче:

Використовуючи статистичне програмне забезпечення, ми можемо обчислити такі значення відстані Кука для кожного спостереження:

Зауважте, що останнє спостереження має значення, значно більше за 1 для відстані Кука, що говорить нам, що це впливове спостереження.

Припустімо, ми видаляємо це значення з набору даних і підбираємо нову просту модель лінійної регресії. Результат цієї моделі показано нижче:

Зауважте, що коефіцієнти регресії для перетину та x різко змінилися. Це говорить нам про те, що видалення впливового спостереження з набору даних повністю змінило підігнану модель регресії.

На наступних графіках показано різницю між цими двома підігнаними рівняннями регресії:

Зверніть увагу, наскільки одне впливове спостереження змінює лінію регресії. Вилучивши це спостереження, ми змогли знайти лінію регресії, яка набагато точніше відповідає даним.

Коментарі

Важливо відзначити, що відстань Кука слід використовувати для ідентифікації потенційно впливових спостережень. Проте те, що спостереження є впливовим, не обов’язково означає, що його слід видалити з набору даних.

По-перше, вам потрібно переконатися, що спостереження не є результатом помилки введення даних або іншої дивної події. Якщо виявиться, що це законне значення, ви можете прийняти рішення обробляти його одним із таких способів:

  • Видаліть його з набору даних.
  • Залиште це в наборі даних.
  • Замініть його альтернативним значенням, наприклад середнім або медіаною.

Залежно від конкретного сценарію один із цих варіантів може мати більше сенсу, ніж інші.

Як розрахувати дистанцію кухаря на практиці

У наступних посібниках пояснюється, як обчислити відстань Кука для певного набору даних у Python і R:

Як обчислити відстань Кука в Python
Як розрахувати відстань Кука в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *