Что такое модифицированный z-показатель? (определение & #038; пример)
В статистике z-показатель говорит нам, на сколько стандартных отклонений значение находится от среднего значения . Для расчета z-показателя мы используем следующую формулу:
Z-оценка = (x i – µ) / σ
Золото:
- x i : одно значение данных
- μ: среднее значение набора данных
- σ: стандартное отклонение набора данных
Z-оценки часто используются для обнаружения выбросов в наборе данных. Например, наблюдения с z-показателем менее -3 или более 3 часто считаются выбросами.
Однако на z-показатели могут влиять необычно большие или маленькие значения данных. Вот почему более надежный способ обнаружения выбросов — использовать модифицированный z-показатель , рассчитываемый следующим образом:
Модифицированный z-показатель = 0,6745 (x i – x̃) / MAD
Золото:
- x i : одно значение данных
- x̃: медиана набора данных
- MAD: медианное абсолютное отклонение набора данных.
Модифицированный z-показатель более надежен, поскольку для расчета z-показателей используется медиана, а не среднее значение, на которое, как известно, влияют выбросы .
Иглевич и Хоаглин рекомендуют помечать значения с модифицированными z-показателями менее -3,5 или более 3,5 как потенциальные выбросы.
В следующем пошаговом примере показано, как вычислить модифицированные z-показатели для заданного набора данных.
Шаг 1. Создайте данные
Предположим, у нас есть следующий набор данных с 16 значениями:
Шаг 2: Найдите медиану
Далее найдем медиану. Это представляет собой среднюю точку набора данных, которая оказывается 16 .
Шаг 3. Найдите абсолютную разницу между каждым значением и медианой.
Далее мы найдем абсолютную разницу между каждым отдельным значением данных и медианой. Например, абсолютная разница между первым значением данных и медианой рассчитывается следующим образом:
Абсолютная разница = |6 – 16| = 10
Мы можем использовать ту же формулу для расчета абсолютной разницы между каждым отдельным значением данных и медианой:
Шаг 4: Найдите абсолютное медианное отклонение
Далее мы найдем абсолютное медианное отклонение. Это медиана второго столбца, которая оказывается равной 8 .
Шаг 5. Найдите модифицированный Z-показатель для каждого значения данных.
Наконец, мы можем рассчитать модифицированный z-показатель для каждого значения данных, используя следующую формулу:
Модифицированный z-показатель = 0,6745 (x i – x̃) / MAD
Например, модифицированный z-показатель для первого значения данных рассчитывается следующим образом:
Модифицированный z-показатель = 0,6745*(6-16)/8 = -0,843
Мы можем повторить эту формулу для каждого значения в наборе данных:
Мы видим, что ни одно значение в наборе данных не имеет модифицированного z-показателя ниже -3,5 или выше 3,5, поэтому мы не помечаем какое-либо значение в этом наборе данных как потенциальное выброс.
Как обрабатывать выбросы
Если в вашем наборе данных присутствует выброс, у вас есть несколько вариантов:
- Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
- Присвойте новое значение выбросу . Если выброс оказывается результатом ошибки ввода данных, вы можете присвоить ему новое значение, например среднее или медиану набора данных.
- Удалите выброс. Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.