Як розрахувати відстань приготування в sas
Відстань Кука використовується для визначення впливових спостережень у регресійній моделі.
Формула відстані Кука:
d i = (r i 2 / p*MSE) * (h ii / (1-h ii ) 2 )
золото:
- r i – i- й залишок
- p – кількість коефіцієнтів у регресійній моделі
- MSE – це середня квадратична помилка
- h ii — i-те значення кредитного плеча
По суті, відстань Кука вимірює, наскільки всі підігнані значення моделі змінюються, коли i -те спостереження видаляється.
Чим більше значення відстані Кука, тим більш впливовим є дане спостереження.
Як правило, вважається, що будь-яке спостереження з відстанню Кука більше 4/n (де n = загальна кількість спостережень) має великий вплив.
У наступному прикладі показано, як обчислити відстань Кука для кожного спостереження в регресійній моделі в SAS.
Приклад: розрахунок відстані кухаря в SAS
Припустімо, що в SAS є такий набір даних:
/*create dataset*/
data my_data;
input xy;
datalines ;
8 41
12 42
12 39
13 37
14 35
16 39
17 45
22 46
24 39
26 49
29 55
30 57
;
run ;
/*view dataset*/
proc print data =my_data;
Ми можемо використати PROC REG, щоб підібрати просту модель лінійної регресії до цього набору даних, а потім використати оператор OUTPUT із оператором COOKD , щоб обчислити відстань Кука для кожного спостереження в моделі регресії:
/*fit simple linear regression model and calculate Cook's distance for each obs*/
proc reg data =my_data;
model y=x;
output out=cooksData cookd =cookd;
run ;
/*print Cook's distance values for each observation*/
proc print data =cooksData;
У таблиці остаточних результатів відображається вихідний набір даних разом із відстанню Кука для кожного спостереження:
Наприклад, ми можемо побачити:
- Відстань Кука для першого спостереження становить 0,36813 .
- Відстань Кука для другого спостереження становить 0,06075 .
- Відстань Кука для третього спостереження становить 0,00052 .
І так далі.
Процедура PROC REG також створює кілька діагностичних графіків у вихідних даних, і діаграму відстані Кука можна побачити на цьому виході:
На осі абсцис відкладено номер спостереження, а на осі у – відстань Кука для кожного спостереження.
Зауважте, що лінія відсікання розміщена на 4/n (у цьому випадку n = 12, тому межа становить 0,33), і ми бачимо, що три спостереження в наборі даних перевищують цю лінію.
Це вказує на те, що ці спостереження можуть мати великий вплив на регресійну модель і, можливо, їх слід уважніше вивчити перед інтерпретацією результатів моделі.
Додаткові ресурси
У наступних посібниках пояснюється, як виконувати інші типові завдання в SAS:
Як створити ділянку залишку в SAS
Як створити гістограми в SAS
Як створити хмару точок у SAS
Як визначити викиди в SAS