Почему среднее значение важно в статистике?


Среднее значение набора данных представляет собой среднее значение набора данных. Он рассчитывается следующим образом:

Среднее = Σx i /n

Золото:

  • Σ: Символ, означающий «сумма».
  • x i : i наблюдение в наборе данных.
  • n: общее количество наблюдений в наборе данных

Например, предположим, что у нас есть следующий набор данных с 11 наблюдениями:

Набор данных: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17.

Среднее значение набора данных рассчитывается следующим образом:

Среднее = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54

В статистике среднее значение важно по следующим причинам:

1. Среднее значение дает нам представление о том, где находится «центр» набора данных.

2. Из-за способа расчета среднее значение содержит информацию из каждого наблюдения в наборе данных.

Следующий пример иллюстрирует эти две причины.

Пример: вычисление среднего значения набора данных

Допустим, у нас есть набор данных, содержащий цены продажи 10 000 различных домов в определенном городе.

Вместо того, чтобы просматривать тысячи строк необработанных данных , мы можем вычислить среднее значение, чтобы быстро понять среднюю цену продажи домов в этом городе.

Знание того, что средняя цена продажи составляет 297 000 долларов, дает нам представление о том, по какой цене продается «типичный» дом в этом городе.

Это единственное среднее значение гораздо легче интерпретировать, чем рассматривать все строки необработанных данных.

А поскольку цена продажи каждого дома использовалась для расчета средней цены, мы могли бы умножить среднюю цену продажи на общее количество домов, чтобы найти общую цену продажи всех домов в этом городе:

  • Общая цена продажи всех домов = Средняя цена продажи * Количество домов.
  • Общая цена продажи всех домов = 297 000 долларов США * 10 000 долларов США.
  • Общая цена продажи всех домов = 2 970 000 000 долларов США.

Мы видим, что общая цена продажи всех домов в этом городе составляет 2,97 миллиарда долларов.

Когда использовать среднее значение

Анализируя наборы данных, мы часто хотим понять, в чем заключается центральная ценность.

В статистике есть две распространенные метрики, которые мы используем для измерения центра набора данных:

  • Среднее : среднее значение в наборе данных.
  • Медиана : медианное значение в наборе данных.

Среднее значение является наиболее распространенным способом измерения центра набора данных, но оно может вводить в заблуждение в следующих ситуациях:

Чтобы проиллюстрировать это, рассмотрим следующие два примера.

Пример 1. Вычисление среднего значения асимметричного распределения.

Рассмотрим следующее распределение зарплат жителей определенного города:

Высокие заработные платы на правой стороне распределения отодвигают среднее значение от центра распределения.

Таким образом, медиана лучше отражает «типичную» зарплату жителя, чем средняя, поскольку распределение смещено вправо.

В этом конкретном примере средняя зарплата составляет 47 000 долларов США, а медианная зарплата — 32 000 долларов США.

Таким образом, медиана гораздо лучше отражает типичную зарплату в этом городе.

Пример 2. Вычисление среднего значения при наличии выбросов

Рассмотрим следующий график, показывающий площадь домов на определенной улице:

Когда использовать среднее значение, а не медиану

На среднее значение сильно влияют несколько чрезвычайно больших домов, а на медиану — нет.

Мы видим, что медиана лучше отражает «типичную» площадь дома на этой улице, чем среднее значение, поскольку на нее не влияют выбросы.

Краткое содержание

Вот краткое изложение основных выводов из этой статьи:

  • Среднее значение представляет собой среднее значение в наборе данных.
  • Среднее значение важно, поскольку оно дает нам представление о том, где в наборе данных находится центральное значение.
  • Среднее значение также важно, поскольку оно содержит информацию из каждого наблюдения в наборе данных.
  • Среднее значение может вводить в заблуждение, если набор данных искажен или содержит выбросы. В этих сценариях медиана дает более точное представление о том, где находится «центр» набора данных.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о другой описательной статистике:

Почему медиана важна в статистике?
Почему стандартное отклонение важно в статистике?
Когда использовать среднее значение, а не медиану

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *