Чому середня величина важлива в статистиці?


Середнє значення набору даних представляє середнє значення набору даних. Він розраховується таким чином:

Середнє = Σx i / n

золото:

  • Σ: символ, що означає «сума»
  • x i : i -те спостереження в наборі даних
  • n: загальна кількість спостережень у наборі даних

Наприклад, припустімо, що ми маємо такий набір даних з 11 спостереженнями:

Набір даних: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

Середнє значення набору даних обчислюється таким чином:

Середнє = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54

У статистиці середнє значення важливе з таких причин:

1. Середнє значення дає нам уявлення про те, де знаходиться «центр» набору даних.

2. Через спосіб обчислення середнє значення містить інформацію з кожного спостереження в наборі даних.

Наступний приклад ілюструє ці дві причини.

Приклад: обчисліть середнє значення набору даних

Припустімо, у нас є набір даних, що містить ціни продажу 10 000 різних будинків у певному місті.

Замість того, щоб переглядати тисячі рядківнеоброблених даних , ми можемо обчислити середнє значення, щоб швидко зрозуміти середню ціну продажу будинків у цьому місті.

Знання того, що середня ціна продажу становить 297 000 доларів, дає нам уявлення про те, за що продається «типовий» будинок у цьому місті.

Це одне середнє значення набагато легше інтерпретувати, ніж переглядати всі рядки необроблених даних.

А оскільки для розрахунку середнього значення використовувалася ціна продажу кожного будинку, ми могли б помножити середню ціну продажу на загальну кількість будинків, щоб знайти загальну ціну продажу всіх будинків у цьому місті:

  • Загальна ціна продажу всіх будинків = Середня ціна продажу * Кількість будинків
  • Загальна ціна продажу всіх будинків = $297 000 * 10 000
  • Загальна ціна продажу всіх будинків = 2 970 000 000 доларів США

Ми бачимо, що загальна ціна продажу всіх будинків у цьому місті становить 2,97 мільярда доларів.

Коли використовувати середнє значення

Аналізуючи набори даних, ми часто хочемо зрозуміти, де лежить центральна цінність.

У статистиці є два загальні показники, які ми використовуємо для вимірювання центру набору даних:

  • Середнє : середнє значення в наборі даних
  • Медіана : середнє значення в наборі даних

Середнє значення є найпоширенішим способом вимірювання центру набору даних, але насправді воно може ввести в оману в таких ситуаціях:

Щоб проілюструвати це, розглянемо наступні два приклади.

Приклад 1: обчислення середнього значення викривленого розподілу

Розглянемо наступний розподіл зарплат жителів певного міста:

Високі заробітні плати в правій частині розподілу відсувають середнє значення від центру розподілу.

Таким чином, медіана краще відображає «типову» зарплату мешканця, ніж середня, оскільки розподіл зміщений вправо.

У цьому конкретному прикладі середня зарплата становить 47 000 доларів США, а середня зарплата – 32 000 доларів США.

Таким чином, медіана набагато більше репрезентує типову зарплату в цьому місті.

Приклад 2: обчислення середнього за наявності викидів

Розглянемо наступний графік, який показує площу будинків на певній вулиці:

Коли використовувати середнє значення проти медіани

На середнє значення сильно впливають кілька надзвичайно великих будинків, а на медіану – ні.

Ми бачимо, що медіана краще фіксує «типову» площу будинку на цій вулиці, ніж середня, оскільки на неї не впливають викиди.

Резюме

Ось короткий виклад основних висновків із цієї статті:

  • Середнє значення представляє середнє значення в наборі даних.
  • Середнє значення важливе, оскільки воно дає нам уявлення про те, де знаходиться центральне значення в наборі даних.
  • Середнє значення також важливо, оскільки воно містить інформацію з кожного спостереження в наборі даних.
  • Середнє значення може ввести в оману, якщо набір даних спотворений або містить викиди. У цих сценаріях медіана дає більш точне уявлення про те, де знаходиться «центр» набору даних.

Додаткові ресурси

Наступні посібники надають додаткову інформацію про іншу описову статистику:

Чому медіана важлива в статистиці?
Чому стандартне відхилення є важливим у статистиці?
Коли використовувати середнє значення проти медіани

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *