Преимущества и недостатки использования среднего значения в статистике
Среднее значение набора данных представляет собой среднее значение набора данных.
Он рассчитывается следующим образом:
Среднее = Σx i /n
Золото:
- Σ: Символ, означающий «сумма».
- x i : i -е наблюдение в наборе данных.
- n: общее количество наблюдений в наборе данных
Есть два основных преимущества использования среднего значения для описания «центра» или «среднего» набора данных:
Преимущество №1: при расчете среднего значения используются все наблюдения из набора данных. В статистике это, как правило, хорошо, поскольку считается, что при этом используется вся информация, доступная в наборе данных.
Преимущество № 2: среднее значение легко вычислить и интерпретировать. Среднее значение представляет собой сумму всех наблюдений, деленную на общее количество наблюдений. Его легко рассчитать (даже вручную) и легко интерпретировать.
Однако использование среднего значения для суммирования набора данных имеет два потенциальных недостатка:
Недостаток № 1: На среднее значение влияют выбросы. Если набор данных имеет крайний выброс, это влияет на среднее значение и делает его ненадежным показателем центра набора данных.
Недостаток №2: Среднее значение может вводить в заблуждение из-за искаженных наборов данных. Когда набор данных наклонен влево или вправо , усреднение может ввести в заблуждение способом измерения центра набора данных.
Следующие примеры иллюстрируют эти преимущества и недостатки на практике.
Пример 1: Преимущества использования среднего значения
Предположим, у нас есть следующая гистограмма, показывающая зарплаты жителей конкретного города:
Поскольку это распределение, как правило, симметрично (если разделить его посередине, каждая половина будет выглядеть примерно одинаково) и в нем нет выбросов, среднее значение является полезным способом описания центра этого набора данных.
В среднем получается $63 000, что примерно в центре распределения:
В этом конкретном примере мы смогли использовать оба преимущества усреднения:
Преимущество №1: при расчете среднего значения используются все наблюдения из набора данных.
Поскольку распределение было по сути симметричным и не было крайних выбросов, мы смогли использовать все доступные зарплаты для расчета средней, что дало нам хорошее представление о «средней» или «типичной» зарплате в этом конкретном городе.
Преимущество № 2: среднее значение легко вычислить и интерпретировать. Легко понять, что средняя зарплата в 63 000 долларов представляет собой «среднюю» зарплату человека в этом городе.
Хотя некоторые люди зарабатывают гораздо больше, а другие гораздо меньше, это среднее значение дает нам хорошее представление о «типичной» зарплате в этом городе.
Пример 2: Недостатки использования среднего значения
Предположим, у нас очень асимметричное распределение заработной платы, и мы решили рассчитать как среднюю, так и медианную зарплату:
Более высокие значения в хвосте распределения смещают среднее значение от центра к длинному хвосту.
В этом примере среднее значение говорит нам, что типичный человек зарабатывает около 47 000 долларов в год, в то время как медиана говорит нам, что типичный человек зарабатывает всего около 32 000 долларов в год, что гораздо более репрезентативно для типичного человека.
В этом примере среднее значение плохо суммирует «типичное» или «среднее» значение в этом распределении, поскольку распределение искажено.
Или предположим, что у нас есть другое распределение, содержащее информацию о площади домов на определенной улице, и мы решили вычислить как среднее, так и медиану набора данных:
На среднее значение влияют несколько чрезвычайно больших домов, в результате чего оно принимает гораздо более высокое значение.
Это приводит к тому, что значение средней площади в квадратных футах вводит в заблуждение и дает плохую оценку «типичной» площади дома на этой улице.
Дополнительные ресурсы
Следующие учебные пособия предоставляют дополнительную информацию о среднем значении и медиане в статистике:
Как выбросы влияют на среднее значение?
Как оценить среднее и медиану любой гистограммы
Как найти среднее и медиану участков стебля и листьев