Какое наблюдение является влиятельным в статистике?


В статистике влиятельное наблюдение — это наблюдение в наборе данных, которое при удалении значительно меняет оценки коэффициентов регрессионной модели.

Самый распространенный способ измерения влияния наблюдений — использовать расстояние Кука , которое количественно определяет, насколько изменяются все подобранные значения в регрессионной модели при удалении i- го наблюдения.

Как правило, любое наблюдение с расстоянием Кука больше 1 считается наблюдением с высоким уровнем рычага.

В следующем примере показано, как рассчитать и интерпретировать расстояние Кука для данного набора данных, чтобы обнаружить потенциально влиятельные наблюдения.

Пример: Обнаружение влиятельных наблюдений

Предположим, у нас есть следующий набор данных с 14 значениями:

Теперь предположим, что мы подошли к простой модели линейной регрессии . Результат регрессии представлен ниже:

Используя статистическое программное обеспечение, мы можем рассчитать следующие значения расстояния Кука для каждого наблюдения:

Обратите внимание, что последнее наблюдение имеет значение расстояния Кука, значительно превышающее 1, что говорит нам о том, что это влиятельное наблюдение.

Предположим, мы удалим это значение из набора данных и подберем новую простую модель линейной регрессии. Результат этой модели показан ниже:

Обратите внимание, что коэффициенты регрессии для точки пересечения и x резко изменились. Это говорит нам о том, что удаление влиятельного наблюдения из набора данных полностью изменило подобранную регрессионную модель.

На следующих графиках показана разница между этими двумя подобранными уравнениями регрессии:

Обратите внимание, насколько сильно одно влиятельное наблюдение меняет линию регрессии. Удалив это наблюдение, мы смогли найти линию регрессии, которая гораздо лучше соответствует данным.

Комментарии

Важно отметить, что расстояние Кука следует использовать для выявления потенциально влиятельных наблюдений. Однако тот факт, что наблюдение является влиятельным, не обязательно означает, что его следует удалить из набора данных.

Во-первых, вам необходимо убедиться, что наблюдение не является результатом ошибки ввода данных или другого странного события. Если окажется, что это законная ценность, вы можете решить поступить с ней одним из следующих способов:

  • Удалите его из набора данных.
  • Оставьте это в наборе данных.
  • Замените его альтернативным значением, например средним или медианой.

В зависимости от вашего конкретного сценария один из этих вариантов может иметь больше смысла, чем другие.

Как рассчитать расстояние повара на практике

В следующих руководствах объясняется, как рассчитать расстояние Кука для заданного набора данных в Python и R:

Как вычислить расстояние Кука в Python
Как вычислить расстояние Кука в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *