Как выбросы влияют на среднее значение?


В статистике среднее значение набора данных — это среднее значение. Это полезно знать, потому что это дает нам представление о том, где находится «центр» набора данных. Он рассчитывается по простой формуле:

среднее = (сумма наблюдений) / (количество наблюдений)

Например, предположим, что у нас есть следующий набор данных:

[1, 4, 5, 6, 7]

Среднее значение набора данных равно (1+4+5+6+7)/(5) = 4,6.

Но хотя среднее значение полезно и его легко вычислить, у него есть недостаток: на него могут влиять выбросы . В частности, чем меньше набор данных, тем больше выброс может повлиять на среднее значение.

Чтобы проиллюстрировать это, рассмотрим следующий классический пример:

Десять мужчин сидят в баре. Средний доход десяти мужчин составляет 50 000 долларов. Внезапно выходит мужчина и входит Билл Гейтс. Сегодня средний доход десяти мужчин в баре составляет 40 миллионов долларов.

Этот пример показывает, как выброс (Билл Гейтс) может существенно повлиять на среднее значение.

Маленькие и большие выбросы

Выброс может повлиять на среднее значение, будучи необычно маленьким или необычно большим. В предыдущем примере Билл Гейтс имел необычно высокий доход, поэтому среднее значение вводит в заблуждение.

Однако необычно низкое значение также может повлиять на среднее значение. Чтобы проиллюстрировать это, рассмотрим следующий пример:

Десять студентов сдают экзамен и получают следующие оценки:

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

Средний балл составляет 84,6 .

Однако если мы удалим оценку «0» из набора данных, то средний балл станет 94 .

Необычно низкий балл учащегося снижает среднее значение всего набора данных.

Размер выборки и выбросы

Чем меньше размер выборки набора данных, тем больше вероятность того, что выброс повлияет на среднее значение.

Например, предположим, что у нас есть набор данных из 100 экзаменационных баллов, в котором все студенты набрали не менее 90 или выше, за исключением одного студента, который набрал ноль:

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

Среднее значение оказывается 93,18 . Если мы удалим «0» из набора данных, среднее значение будет 94,12 . Это относительно небольшая разница. Это показывает, что даже экстремальный выброс оказывает лишь минимальное влияние, если набор данных достаточно велик.

Как обрабатывать выбросы

Если вы обеспокоены тем, что в вашем наборе данных может быть выброс, у вас есть несколько вариантов:

  • Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
  • Присвойте новое значение выбросу . Если выброс окажется результатом ошибки ввода данных, вы можете присвоить ему новое значение, например среднее значение или медиану набора данных.
  • Удалите выброс. Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.

Используйте медиану

Другой способ найти «центр» набора данных — использовать медиану , полученную путем упорядочивания всех отдельных значений в наборе данных от наименьшего к наибольшему и нахождения медианного значения.

Благодаря способу расчета медиана меньше подвержена влиянию выбросов и лучше отражает центральное положение распределения при наличии выбросов.

Например, рассмотрим следующий график, показывающий площадь домов в определенном районе:

На среднее значение сильно влияют несколько чрезвычайно больших домов, а на медиану — нет. Таким образом, медианное значение лучше отражает «типичную» площадь дома в этом районе, чем среднее значение.

Дальнейшее чтение:

Меры центральной тенденции – среднее, медиана и мода
Q-тест Диксона для обнаружения выбросов
Калькулятор выбросов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *