Когда использовать среднее значение или медиана: с примерами
Среднее значение набора данных представляет собой среднее значение набора данных. Он рассчитывается следующим образом:
Среднее = Σx i /n
Золото:
- Σ: Символ, означающий «сумма».
- x i : i -е наблюдение в наборе данных.
- n: общее количество наблюдений в наборе данных
Медиана представляет собой среднее значение набора данных. Он рассчитывается путем упорядочивания всех наблюдений в наборе данных от наименьшего к наибольшему, а затем определения медианного значения.
Например, предположим, что у нас есть следующий набор данных с 11 наблюдениями :
Набор данных: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17.
Среднее значение набора данных рассчитывается следующим образом:
Среднее = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
Медиана набора данных — это значение прямо посередине, которое оказывается равным 8:
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
Средняя и медианная оценка того, где находится центр набора данных. Однако, в зависимости от характера данных, среднее значение или медиана могут быть более полезными для описания центра набора данных.
Когда использовать среднее значение
Лучше всего использовать среднее значение для описания центра набора данных, когда распределение по существу симметрично и нет выбросов.
Например, предположим, что у нас есть следующее распределение, показывающее зарплаты жителей определенного города:
Поскольку это распределение довольно симметрично (если разделить его посередине, каждая половина будет выглядеть примерно одинаково) и в нем нет выбросов, мы можем использовать среднее значение для описания центра этого набора данных.
В среднем получается $63 000, что примерно в центре распределения:
Когда использовать медиану
Медиану лучше всего использовать, когда распределение искажено или имеются выбросы.
Искаженные данные:
Когда распределение искажено, медиана описывает центр распределения лучше, чем среднее значение.
Для примера рассмотрим следующее распределение зарплат жителей определенного города:
Медианное значение лучше отражает «типичную» зарплату жителя, чем среднее значение. Это связано с тем, что высокие значения в хвосте распределения имеют тенденцию смещать среднее значение от центра к длинному хвосту.
В этом примере среднее значение говорит нам, что типичный человек зарабатывает около 47 000 долларов в год, в то время как медиана говорит нам, что типичный человек зарабатывает всего около 32 000 долларов в год, что гораздо более репрезентативно для типичного человека.
Выбросы:
Медиана также помогает лучше определить центральное расположение распределения, когда в данных есть выбросы. Например, рассмотрим следующий график, показывающий площадь домов на определенной улице:
На среднее значение сильно влияют несколько чрезвычайно больших домов, а на медиану — нет. Таким образом, медианное значение лучше отражает «типичную» площадь дома на этой улице, чем среднее значение.
Краткое содержание
В итоге:
- Среднее значение и медиану можно использовать для описания того, где находится «центр» набора данных.
- Лучше всего использовать среднее значение, когда распределение значений данных симметрично и нет явных выбросов.
- Медиану лучше всего использовать, когда распределение значений данных искажено или когда имеются явные выбросы.
Дополнительные ресурсы
Как выбросы влияют на среднее значение?
Как оценить среднее и медиану любой гистограммы
Как найти среднее и медиану участков стебля и листьев