Коли використовувати середнє проти медіана: з прикладами


Середнє значення набору даних представляє середнє значення набору даних. Він розраховується таким чином:

Середнє = Σx i / n

золото:

  • Σ: символ, що означає «сума»
  • x i : i спостереження в наборі даних
  • n: загальна кількість спостережень у наборі даних

Медіана представляє середнє значення набору даних. Він обчислюється шляхом упорядкування всіх спостережень у наборі даних від найменшого до найбільшого, а потім визначення медіанного значення.

Наприклад, припустімо, що ми маємо такий набір даних з 11 спостереженнями :

Набір даних: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

Середнє значення набору даних обчислюється таким чином:

Середнє = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54

Медіана набору даних – це значення безпосередньо посередині, яке виявляється рівним 8:

3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17

Середнє значення та медіана оцінки того, де знаходиться центр набору даних. Однак, залежно від характеру даних, середнє або медіана можуть бути більш корисними для опису центру набору даних.

Коли використовувати середнє значення

Найкраще використовувати середнє для опису центру набору даних, коли розподіл по суті симетричний і немає викидів.

Наприклад, припустимо, що у нас є такий розподіл, який показує зарплати жителів певного міста:

Оскільки цей розподіл досить симетричний (якщо розділити його посередині, кожна половина виглядатиме приблизно рівною) і немає викидів, ми можемо використати середнє для опису центру цього набору даних.

Середній показник виходить $63 000, тобто приблизно в центрі розподілу:

Коли використовувати медіану

Найкраще використовувати медіану, коли розподіл спотворений або коли є викиди.

Спотворені дані:

Якщо розподіл спотворений, медіана краще описує центр розподілу, ніж середнє.

Для прикладу розглянемо такий розподіл зарплат жителів певного міста:

Медіана краще відображає «типову» зарплату жителя, ніж середня. Це пояснюється тим, що високі значення в хвості розподілу мають тенденцію відштовхувати середнє значення від центру до довгого хвоста.

У цьому прикладі середнє значення говорить нам, що типова людина заробляє близько 47 000 доларів на рік, тоді як медіана говорить нам, що типова особа заробляє лише близько 32 000 доларів на рік, що є набагато більш репрезентативним для типової особи.

Викиди:

Медіана також допомагає краще охопити центральне розташування розподілу, коли в даних є викиди. Наприклад, розглянемо наступний графік, який показує площу будинків на певній вулиці:

Коли використовувати середнє значення проти медіани

На середнє значення сильно впливають кілька надзвичайно великих будинків, а на медіану – ні. Таким чином, медіана краще фіксує «типову» площу будинку на цій вулиці, ніж середня.

Резюме

Підсумовуючи:

  • Середнє значення та медіана можна використовувати, щоб описати, де знаходиться «центр» набору даних.
  • Найкраще використовувати середнє значення, коли розподіл значень даних симетричний і немає чітких викидів.
  • Найкраще використовувати медіану, коли розподіл значень даних спотворений або коли є явні викиди.

Додаткові ресурси

Як викиди впливають на середнє значення?
Як оцінити середнє та медіану будь-якої гістограми
Як знайти середнє та медіану графіків стебла та листя

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *