Как рассчитать расстояние приготовления в sas
Расстояние Кука используется для выявления влиятельных наблюдений в регрессионной модели.
Формула расстояния Кука:
d я = (r я 2 / p*MSE) * (час ii / (1-h ii ) 2 )
Золото:
- r i — i- й остаток
- p — количество коэффициентов в регрессионной модели.
- MSE — среднеквадратическая ошибка
- h ii — i -е значение кредитного плеча
По сути, расстояние Кука измеряет, насколько изменяются все подобранные значения модели при удалении i- го наблюдения.
Чем больше значение расстояния Кука, тем более влиятельным является данное наблюдение.
Обычно считается, что любое наблюдение с расстоянием Кука, превышающим 4/n (где n = общее количество наблюдений), имеет большое влияние.
В следующем примере показано, как вычислить расстояние Кука для каждого наблюдения в регрессионной модели в SAS.
Пример: расчет расстояния повара в SAS
Предположим, у нас есть следующий набор данных в SAS:
/*create dataset*/
data my_data;
input xy;
datalines ;
8 41
12 42
12 39
13 37
14 35
16 39
17 45
22 46
24 39
26 49
29 55
30 57
;
run ;
/*view dataset*/
proc print data =my_data;
Мы можем использовать PROC REG , чтобы подогнать простую модель линейной регрессии к этому набору данных, а затем использовать оператор OUTPUT с оператором COOKD , чтобы вычислить расстояние Кука для каждого наблюдения в модели регрессии:
/*fit simple linear regression model and calculate Cook's distance for each obs*/
proc reg data =my_data;
model y=x;
output out=cooksData cookd =cookd;
run ;
/*print Cook's distance values for each observation*/
proc print data =cooksData;
В итоговой таблице результатов отображается исходный набор данных вместе с расстоянием Кука для каждого наблюдения:
Например, мы можем увидеть:
- Расстояние Кука для первого наблюдения составляет 0,36813 .
- Расстояние Кука для второго наблюдения составляет 0,06075 .
- Расстояние Кука для третьего наблюдения составляет 0,00052 .
И так далее.
Процедура PROC REG также создает на выходе несколько диагностических графиков, и в этом выводе можно увидеть график расстояния Кука:
Ось X показывает номер наблюдения, а ось Y показывает расстояние Кука для каждого наблюдения.
Обратите внимание, что линия отсечения расположена на уровне 4/n (в данном случае n = 12, поэтому граница находится на уровне 0,33), и мы видим, что три наблюдения в наборе данных превышают эту линию.
Это указывает на то, что эти наблюдения могут оказать большое влияние на регрессионную модель и, возможно, их следует изучить более внимательно, прежде чем интерпретировать результаты модели.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как создать остаточный график в SAS
Как создавать гистограммы в SAS
Как создать облака точек в SAS
Как выявить выбросы в SAS