Почему среднее значение важно в статистике?
Среднее значение набора данных представляет собой среднее значение набора данных. Он рассчитывается следующим образом:
Среднее = Σx i /n
Золото:
- Σ: Символ, означающий «сумма».
- x i : i -е наблюдение в наборе данных.
- n: общее количество наблюдений в наборе данных
Например, предположим, что у нас есть следующий набор данных с 11 наблюдениями:
Набор данных: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17.
Среднее значение набора данных рассчитывается следующим образом:
Среднее = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
В статистике среднее значение важно по следующим причинам:
1. Среднее значение дает нам представление о том, где находится «центр» набора данных.
2. Из-за способа расчета среднее значение содержит информацию из каждого наблюдения в наборе данных.
Следующий пример иллюстрирует эти две причины.
Пример: вычисление среднего значения набора данных
Допустим, у нас есть набор данных, содержащий цены продажи 10 000 различных домов в определенном городе.
Вместо того, чтобы просматривать тысячи строк необработанных данных , мы можем вычислить среднее значение, чтобы быстро понять среднюю цену продажи домов в этом городе.
Знание того, что средняя цена продажи составляет 297 000 долларов, дает нам представление о том, по какой цене продается «типичный» дом в этом городе.
Это единственное среднее значение гораздо легче интерпретировать, чем рассматривать все строки необработанных данных.
А поскольку цена продажи каждого дома использовалась для расчета средней цены, мы могли бы умножить среднюю цену продажи на общее количество домов, чтобы найти общую цену продажи всех домов в этом городе:
- Общая цена продажи всех домов = Средняя цена продажи * Количество домов.
- Общая цена продажи всех домов = 297 000 долларов США * 10 000 долларов США.
- Общая цена продажи всех домов = 2 970 000 000 долларов США.
Мы видим, что общая цена продажи всех домов в этом городе составляет 2,97 миллиарда долларов.
Когда использовать среднее значение
Анализируя наборы данных, мы часто хотим понять, в чем заключается центральная ценность.
В статистике есть две распространенные метрики, которые мы используем для измерения центра набора данных:
- Среднее : среднее значение в наборе данных.
- Медиана : медианное значение в наборе данных.
Среднее значение является наиболее распространенным способом измерения центра набора данных, но оно может вводить в заблуждение в следующих ситуациях:
- Когда распределение несимметрично .
- Когда распределение содержит выбросы .
Чтобы проиллюстрировать это, рассмотрим следующие два примера.
Пример 1. Вычисление среднего значения асимметричного распределения.
Рассмотрим следующее распределение зарплат жителей определенного города:
Высокие заработные платы на правой стороне распределения отодвигают среднее значение от центра распределения.
Таким образом, медиана лучше отражает «типичную» зарплату жителя, чем средняя, поскольку распределение смещено вправо.
В этом конкретном примере средняя зарплата составляет 47 000 долларов США, а медианная зарплата — 32 000 долларов США.
Таким образом, медиана гораздо лучше отражает типичную зарплату в этом городе.
Пример 2. Вычисление среднего значения при наличии выбросов
Рассмотрим следующий график, показывающий площадь домов на определенной улице:
На среднее значение сильно влияют несколько чрезвычайно больших домов, а на медиану — нет.
Мы видим, что медиана лучше отражает «типичную» площадь дома на этой улице, чем среднее значение, поскольку на нее не влияют выбросы.
Краткое содержание
Вот краткое изложение основных выводов из этой статьи:
- Среднее значение представляет собой среднее значение в наборе данных.
- Среднее значение важно, поскольку оно дает нам представление о том, где в наборе данных находится центральное значение.
- Среднее значение также важно, поскольку оно содержит информацию из каждого наблюдения в наборе данных.
- Среднее значение может вводить в заблуждение, если набор данных искажен или содержит выбросы. В этих сценариях медиана дает более точное представление о том, где находится «центр» набора данных.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о другой описательной статистике:
Почему медиана важна в статистике?
Почему стандартное отклонение важно в статистике?
Когда использовать среднее значение, а не медиану