Как выбросы влияют на среднее значение?
В статистике среднее значение набора данных — это среднее значение. Это полезно знать, потому что это дает нам представление о том, где находится «центр» набора данных. Он рассчитывается по простой формуле:
среднее = (сумма наблюдений) / (количество наблюдений)
Например, предположим, что у нас есть следующий набор данных:
[1, 4, 5, 6, 7]
Среднее значение набора данных равно (1+4+5+6+7)/(5) = 4,6.
Но хотя среднее значение полезно и его легко вычислить, у него есть недостаток: на него могут влиять выбросы . В частности, чем меньше набор данных, тем больше выброс может повлиять на среднее значение.
Чтобы проиллюстрировать это, рассмотрим следующий классический пример:
Десять мужчин сидят в баре. Средний доход десяти мужчин составляет 50 000 долларов. Внезапно выходит мужчина и входит Билл Гейтс. Сегодня средний доход десяти мужчин в баре составляет 40 миллионов долларов.
Этот пример показывает, как выброс (Билл Гейтс) может существенно повлиять на среднее значение.
Маленькие и большие выбросы
Выброс может повлиять на среднее значение, будучи необычно маленьким или необычно большим. В предыдущем примере Билл Гейтс имел необычно высокий доход, поэтому среднее значение вводит в заблуждение.
Однако необычно низкое значение также может повлиять на среднее значение. Чтобы проиллюстрировать это, рассмотрим следующий пример:
Десять студентов сдают экзамен и получают следующие оценки:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Средний балл составляет 84,6 .
Однако если мы удалим оценку «0» из набора данных, то средний балл станет 94 .
Необычно низкий балл учащегося снижает среднее значение всего набора данных.
Размер выборки и выбросы
Чем меньше размер выборки набора данных, тем больше вероятность того, что выброс повлияет на среднее значение.
Например, предположим, что у нас есть набор данных из 100 экзаменационных баллов, в котором все студенты набрали не менее 90 или выше, за исключением одного студента, который набрал ноль:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
Среднее значение оказывается 93,18 . Если мы удалим «0» из набора данных, среднее значение будет 94,12 . Это относительно небольшая разница. Это показывает, что даже экстремальный выброс оказывает лишь минимальное влияние, если набор данных достаточно велик.
Как обрабатывать выбросы
Если вы обеспокоены тем, что в вашем наборе данных может быть выброс, у вас есть несколько вариантов:
- Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
- Присвойте новое значение выбросу . Если выброс окажется результатом ошибки ввода данных, вы можете присвоить ему новое значение, например среднее значение или медиану набора данных.
- Удалите выброс. Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.
Используйте медиану
Другой способ найти «центр» набора данных — использовать медиану , полученную путем упорядочивания всех отдельных значений в наборе данных от наименьшего к наибольшему и нахождения медианного значения.
Благодаря способу расчета медиана меньше подвержена влиянию выбросов и лучше отражает центральное положение распределения при наличии выбросов.
Например, рассмотрим следующий график, показывающий площадь домов в определенном районе:
На среднее значение сильно влияют несколько чрезвычайно больших домов, а на медиану — нет. Таким образом, медианное значение лучше отражает «типичную» площадь дома в этом районе, чем среднее значение.
Дальнейшее чтение:
Меры центральной тенденции – среднее, медиана и мода
Q-тест Диксона для обнаружения выбросов
Калькулятор выбросов