Преимущества и недостатки использования среднего значения в статистике


Среднее значение набора данных представляет собой среднее значение набора данных.

Он рассчитывается следующим образом:

Среднее = Σx i /n

Золото:

  • Σ: Символ, означающий «сумма».
  • x i : i наблюдение в наборе данных.
  • n: общее количество наблюдений в наборе данных

Есть два основных преимущества использования среднего значения для описания «центра» или «среднего» набора данных:

Преимущество №1: при расчете среднего значения используются все наблюдения из набора данных. В статистике это, как правило, хорошо, поскольку считается, что при этом используется вся информация, доступная в наборе данных.

Преимущество № 2: среднее значение легко вычислить и интерпретировать. Среднее значение представляет собой сумму всех наблюдений, деленную на общее количество наблюдений. Его легко рассчитать (даже вручную) и легко интерпретировать.

Однако использование среднего значения для суммирования набора данных имеет два потенциальных недостатка:

Недостаток № 1: На среднее значение влияют выбросы. Если набор данных имеет крайний выброс, это влияет на среднее значение и делает его ненадежным показателем центра набора данных.

Недостаток №2: Среднее значение может вводить в заблуждение из-за искаженных наборов данных. Когда набор данных наклонен влево или вправо , усреднение может ввести в заблуждение способом измерения центра набора данных.

Следующие примеры иллюстрируют эти преимущества и недостатки на практике.

Пример 1: Преимущества использования среднего значения

Предположим, у нас есть следующая гистограмма, показывающая зарплаты жителей конкретного города:

Поскольку это распределение, как правило, симметрично (если разделить его посередине, каждая половина будет выглядеть примерно одинаково) и в нем нет выбросов, среднее значение является полезным способом описания центра этого набора данных.

В среднем получается $63 000, что примерно в центре распределения:

В этом конкретном примере мы смогли использовать оба преимущества усреднения:

Преимущество №1: при расчете среднего значения используются все наблюдения из набора данных.

Поскольку распределение было по сути симметричным и не было крайних выбросов, мы смогли использовать все доступные зарплаты для расчета средней, что дало нам хорошее представление о «средней» или «типичной» зарплате в этом конкретном городе.

Преимущество № 2: среднее значение легко вычислить и интерпретировать. Легко понять, что средняя зарплата в 63 000 долларов представляет собой «среднюю» зарплату человека в этом городе.

Хотя некоторые люди зарабатывают гораздо больше, а другие гораздо меньше, это среднее значение дает нам хорошее представление о «типичной» зарплате в этом городе.

Пример 2: Недостатки использования среднего значения

Предположим, у нас очень асимметричное распределение заработной платы, и мы решили рассчитать как среднюю, так и медианную зарплату:

Более высокие значения в хвосте распределения смещают среднее значение от центра к длинному хвосту.

В этом примере среднее значение говорит нам, что типичный человек зарабатывает около 47 000 долларов в год, в то время как медиана говорит нам, что типичный человек зарабатывает всего около 32 000 долларов в год, что гораздо более репрезентативно для типичного человека.

В этом примере среднее значение плохо суммирует «типичное» или «среднее» значение в этом распределении, поскольку распределение искажено.

Или предположим, что у нас есть другое распределение, содержащее информацию о площади домов на определенной улице, и мы решили вычислить как среднее, так и медиану набора данных:

Когда использовать среднее значение, а не медиану

На среднее значение влияют несколько чрезвычайно больших домов, в результате чего оно принимает гораздо более высокое значение.

Это приводит к тому, что значение средней площади в квадратных футах вводит в заблуждение и дает плохую оценку «типичной» площади дома на этой улице.

Дополнительные ресурсы

Следующие учебные пособия предоставляют дополнительную информацию о среднем значении и медиане в статистике:

Как выбросы влияют на среднее значение?
Как оценить среднее и медиану любой гистограммы
Как найти среднее и медиану участков стебля и листьев

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *