Как рассчитать стандартизованные остатки в excel
Остаток — это разница между наблюдаемым значением и прогнозируемым значением в регрессионной модели .
Он рассчитывается следующим образом:
Остаток = Наблюдаемое значение – Прогнозируемое значение
Если мы построим наблюдаемые значения и наложим подобранную линию регрессии, остатки для каждого наблюдения будут представлять собой расстояние по вертикали между наблюдением и линией регрессии:
Один тип остатка, который мы часто используем для выявления выбросов в регрессионной модели, называется стандартизированным остатком .
Он рассчитывается следующим образом:
р я знак равно е я / s(е я ) знак равно е я / RSE√ 1-h ii
Золото:
- e i : i- й остаток
- RSE: остаточная стандартная ошибка модели.
- h ii : Рост i-го наблюдения
На практике мы часто рассматриваем любой стандартизированный остаток, абсолютное значение которого превышает 3, как выброс.
В этом руководстве представлен пошаговый пример расчета стандартизированных остатков в Excel.
Шаг 1: Введите данные
Сначала введем в Excel значения из небольшого набора данных:
Шаг 2: Рассчитайте остатки
Затем мы перейдем на вкладку «Данные» на верхней ленте и нажмите «Анализ данных» в группе «Анализ» :
Если вы еще не установили эту надстройку, ознакомьтесь с этим руководством , чтобы узнать, как это сделать. Его легко установить и он совершенно бесплатен.
После того, как вы нажмете «Анализ данных», выберите опцию « Регрессия » и нажмите «ОК» . В появившемся новом окне введите следующую информацию и нажмите «ОК» :
Остаток для каждого наблюдения появится в результате:
Скопируйте и вставьте эти остатки в новый столбец рядом с исходными данными:
Шаг 3: Рассчитайте кредитное плечо
Далее нам нужно рассчитать влияние каждого наблюдения.
На следующем изображении показано, как это сделать:
Вот формулы, используемые в разных ячейках:
- B14: =СЧЕТ(B2:B13)
- B15: = СРЕДНЕЕ (B2: B13)
- B16: =DEVSQ(B2:B13)
- E2: =1/$B$14+(B2-$B$15)^2/$B$16
Шаг 4. Рассчитайте стандартизированные остатки
Наконец, мы можем рассчитать стандартизированные остатки по формуле:
р я знак равно е я / RSE√ 1-h ii
CSR модели можно найти в результатах предыдущей модели. Получается 4,44 :
Таким образом, мы можем использовать следующую формулу для расчета стандартизованной невязки для каждого наблюдения:
Из результатов мы видим, что ни один из стандартизированных остатков не превышает абсолютного значения 3. Таким образом, ни одно из наблюдений не является выбросом.
Следует отметить, что в некоторых случаях исследователи считают выбросами наблюдения, стандартизованные остатки которых превышают абсолютное значение 2.
Вам решать, использовать ли абсолютное значение 2 или 3 в качестве порога для выбросов, в зависимости от конкретной проблемы, над которой вы работаете.
Дополнительные ресурсы
Что такое остатки?
Что такое стандартизированные остатки?
Введение в множественную линейную регрессию