Преимущества и недостатки использования медианы в статистике


Медиана представляет собой среднее значение набора данных.

Он рассчитывается путем упорядочивания всех наблюдений в наборе данных от наименьшего к наибольшему, а затем определения медианного значения.

Использование медианы для описания центра набора данных дает два основных преимущества:

Преимущество № 1: на медиану не влияют выбросы. Поскольку медиана находит только среднее значение набора данных, на нее не влияют чрезвычайно маленькие или чрезвычайно большие значения на обоих концах набора данных.

Преимущество № 2. Медиана является хорошим показателем центра искаженных наборов данных. Когда набор данных смещен влево или вправо , медиане все равно удается определить центральное значение набора данных, в отличие от среднего значения, на которое сильно влияют искаженные распределения.

Однако использование медианы для обобщения набора данных имеет два потенциальных недостатка:

Недостаток №1: при расчете медианы не используются все наблюдения в наборе данных. В статистике мы обычно говорим, что хорошо, если мы можем использовать все наблюдения в наборе данных, потому что тогда мы используем всю информацию, доступную из наших данных. Однако медиана не учитывает информацию из чрезвычайно малых или чрезвычайно больших значений в наборе данных.

Недостаток №2: медиану нельзя использовать для нахождения суммы всех наблюдений в наборе данных. Если мы знаем средний и общий размер выборки набора данных, мы можем найти сумму всех значений в наборе данных. Однако мы не можем сделать то же самое с медианой.

Следующие примеры иллюстрируют эти преимущества и недостатки на практике.

Пример 1: преимущества использования медианы

Предположим, у нас очень асимметричное распределение заработной платы, и мы решили рассчитать как среднюю, так и медианную зарплату:

Среднее значение говорит нам, что типичный человек зарабатывает около 47 000 долларов в год, в то время как медиана говорит нам, что типичный человек зарабатывает всего около 32 000 долларов в год, что гораздо более репрезентативно для типичного человека.

В этом примере на среднее значение влияют самые высокие значения в правом хвосте распределения, а на медиану — нет.

Или предположим, что у нас есть другое распределение, содержащее информацию о площади домов на определенной улице, и мы решили вычислить как среднее, так и медиану набора данных:

Когда использовать среднее значение, а не медиану

На среднее значение влияют несколько чрезвычайно больших домов, в результате чего оно принимает гораздо более высокое значение.

Однако эти выбросы не влияют на медиану и, следовательно, обеспечивают гораздо лучшую оценку «типичной» площади дома на этой улице.

Пример 2: недостатки использования медианы

Напомним первый потенциальный недостаток медианы:

Недостаток №1: при расчете медианы не используются все наблюдения в наборе данных.

Например, предположим, что у нас есть следующий набор данных, который показывает распределение экзаменационных баллов учащихся в классе:

Рейтинги: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92.

Средний балл на экзамене – 83.

Теперь предположим, что у нас тот же набор данных, но три самых низких балла на экзамене намного ниже:

Рейтинги: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92.

Средний балл на экзамене в этом распределении по-прежнему составляет 83.

Вот почему мы говорим, что медиана не использует всю информацию, имеющуюся в наборе данных: она не учитывает фактические значения данных, поскольку является лишь мерой положения.

Теперь вспомним второй потенциальный недостаток медианы:

Недостаток №2: медиану нельзя использовать для нахождения суммы всех наблюдений в наборе данных.

Предположим, у нас есть следующий набор данных, содержащий информацию об общем объеме продаж, осуществленных 11 разными сотрудниками за определенный квартал:

Продажи: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38.

Мы знаем, что медианное значение равно 24, и знаем, что всего сотрудников 11. Однако мы не можем использовать эту информацию, чтобы узнать общий объем продаж всех сотрудников.

С другой стороны, если бы мы знали, что среднее значение равно 24 и что всего сотрудников 11, мы могли бы просто умножить 24 на 11 и получить, что общая сумма продаж равна 24 * 11 = 264.

Примечание . В зависимости от распределения ваших данных и проблемы, которую вы пытаетесь решить, предпочтительным показателем может быть среднее значение или медиана.

Дополнительные ресурсы

Следующие учебные пособия предоставляют дополнительную информацию о среднем значении и медиане в статистике:

Как выбросы влияют на среднее значение?
Как оценить среднее и медиану любой гистограммы
Как найти среднее и медиану участков стебля и листьев

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *