Переваги та недоліки використання середнього значення в статистиці


Середнє значення набору даних представляє середнє значення набору даних.

Він розраховується таким чином:

Середнє = Σx i / n

золото:

  • Σ: символ, що означає «сума»
  • x i : i -те спостереження в наборі даних
  • n: загальна кількість спостережень у наборі даних

Є дві основні переваги використання середнього для опису «центру» або «середнього» набору даних:

Перевага №1: для розрахунку середнього значення використовуються всі спостереження з набору даних. У статистиці це, як правило, добре, оскільки кажуть, що використовується вся інформація, доступна в наборі даних.

Перевага №2: середнє значення легко обчислити та інтерпретувати. Середнє – це сума всіх спостережень, поділена на загальну кількість спостережень. Його легко обчислити (навіть вручну) і легко інтерпретувати.

Однак використання середнього для узагальнення набору даних має два потенційні недоліки:

Недолік №1: на середнє значення впливають викиди. Якщо набір даних має екстремальний викид, це впливає на середнє значення та робить його ненадійним показником центру набору даних.

Недолік №2: середнє значення може вводити в оману через спотворені набори даних. Коли набір даних нахилений ліворуч або праворуч , усереднення може бути оманливим способом вимірювання центру набору даних.

Наступні приклади ілюструють ці переваги та недоліки на практиці.

Приклад 1: Переваги використання середнього значення

Припустимо, у нас є така гістограма, яка показує зарплати жителів певного міста:

Оскільки цей розподіл загалом є симетричним (якщо розділити його посередині, кожна половина виглядатиме приблизно рівною) і немає викидів, середнє значення є корисним способом описати центр цього набору даних.

Середній показник виходить $63 000, тобто приблизно в центрі розподілу:

У цьому конкретному прикладі ми змогли використати обидві переваги усереднення:

Перевага №1: для розрахунку середнього значення використовуються всі спостереження з набору даних.

Оскільки розподіл був по суті симетричним і не було екстремальних викидів, ми змогли використати всі доступні зарплати для розрахунку середньої, що дало нам гарне уявлення про «середню» або «типову» зарплату в цьому конкретному місті.

Перевага №2: середнє значення легко обчислити та інтерпретувати. Легко зрозуміти, що середня зарплата в 63 000 доларів є «середньою» зарплатою людини в цьому місті.

Хоча деякі люди заробляють набагато більше, а інші набагато менше, це середнє значення дає нам гарне уявлення про «типову» зарплату в цьому місті.

Приклад 2: Недоліки використання середнього значення

Припустімо, що у нас дуже нерівний розподіл зарплати, і ми вирішили обчислити як середню, так і медіанну зарплату:

Вищі значення в хвості розподілу переміщують середнє значення від центру до довгого хвоста.

У цьому прикладі середнє значення говорить нам, що типова людина заробляє близько 47 000 доларів на рік, тоді як медіана говорить нам, що типова особа заробляє лише близько 32 000 доларів на рік, що є набагато більш репрезентативним для типової особи.

У цьому прикладі середнє погано підсумовує «типове» або «середнє» значення в цьому розподілі, оскільки розподіл спотворений.

Або припустімо, що у нас є інший розподіл, що містить інформацію про квадратні метри будинків на певній вулиці, і ми вирішуємо обчислити як середнє, так і медіану набору даних:

Коли використовувати середнє значення проти медіани

На середнє значення впливають кілька надзвичайно великих будинків, через що воно приймає набагато вищу вартість.

Це вводить в оману середнє значення квадратних метрів і дає погану оцінку «типового» квадратного метра будинку на цій вулиці.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про середнє значення та медіану в статистиці:

Як викиди впливають на середнє значення?
Як оцінити середнє та медіану будь-якої гістограми
Як знайти середнє та медіану графіків стебла та листя

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *