Что такое модифицированный z-показатель? (определение & #038; пример)


В статистике z-показатель говорит нам, на сколько стандартных отклонений значение находится от среднего значения . Для расчета z-показателя мы используем следующую формулу:

Z-оценка = (x i – µ) / σ

Золото:

  • x i : одно значение данных
  • μ: среднее значение набора данных
  • σ: стандартное отклонение набора данных

Z-оценки часто используются для обнаружения выбросов в наборе данных. Например, наблюдения с z-показателем менее -3 или более 3 часто считаются выбросами.

Однако на z-показатели могут влиять необычно большие или маленькие значения данных. Вот почему более надежный способ обнаружения выбросов — использовать модифицированный z-показатель , рассчитываемый следующим образом:

Модифицированный z-показатель = 0,6745 (x i – x̃) / MAD

Золото:

  • x i : одно значение данных
  • x̃: медиана набора данных
  • MAD: медианное абсолютное отклонение набора данных.

Модифицированный z-показатель более надежен, поскольку для расчета z-показателей используется медиана, а не среднее значение, на которое, как известно, влияют выбросы .

Иглевич и Хоаглин рекомендуют помечать значения с модифицированными z-показателями менее -3,5 или более 3,5 как потенциальные выбросы.

В следующем пошаговом примере показано, как вычислить модифицированные z-показатели для заданного набора данных.

Шаг 1. Создайте данные

Предположим, у нас есть следующий набор данных с 16 значениями:

Шаг 2: Найдите медиану

Далее найдем медиану. Это представляет собой среднюю точку набора данных, которая оказывается 16 .

Шаг 3. Найдите абсолютную разницу между каждым значением и медианой.

Далее мы найдем абсолютную разницу между каждым отдельным значением данных и медианой. Например, абсолютная разница между первым значением данных и медианой рассчитывается следующим образом:

Абсолютная разница = |6 – 16| = 10

Мы можем использовать ту же формулу для расчета абсолютной разницы между каждым отдельным значением данных и медианой:

Шаг 4: Найдите абсолютное медианное отклонение

Далее мы найдем абсолютное медианное отклонение. Это медиана второго столбца, которая оказывается равной 8 .

Шаг 5. Найдите модифицированный Z-показатель для каждого значения данных.

Наконец, мы можем рассчитать модифицированный z-показатель для каждого значения данных, используя следующую формулу:

Модифицированный z-показатель = 0,6745 (x i – x̃) / MAD

Например, модифицированный z-показатель для первого значения данных рассчитывается следующим образом:

Модифицированный z-показатель = 0,6745*(6-16)/8 = -0,843

Мы можем повторить эту формулу для каждого значения в наборе данных:

Мы видим, что ни одно значение в наборе данных не имеет модифицированного z-показателя ниже -3,5 или выше 3,5, поэтому мы не помечаем какое-либо значение в этом наборе данных как потенциальное выброс.

Как обрабатывать выбросы

Если в вашем наборе данных присутствует выброс, у вас есть несколько вариантов:

  • Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
  • Присвойте новое значение выбросу . Если выброс оказывается результатом ошибки ввода данных, вы можете присвоить ему новое значение, например среднее или медиану набора данных.
  • Удалите выброс. Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *