Переваги та недоліки використання медіани в статистиці
Медіана представляє середнє значення набору даних.
Він обчислюється шляхом упорядкування всіх спостережень у наборі даних від найменшого до найбільшого, а потім визначення медіанного значення.
Використання медіани для опису центру набору даних має дві основні переваги:
Перевага №1: на медіану не впливають викиди. Оскільки медіана визначає лише середнє значення набору даних, на нього не впливають надзвичайно малі чи надзвичайно великі значення на обох кінцях набору даних.
Перевага №2: медіана є хорошим показником центру для перекошених наборів даних. Коли набір даних перекошений ліворуч або праворуч , медіані все одно вдається визначити центральне значення набору даних, на відміну від середнього значення, на яке сильно впливають перекошені розподіли.
Однак використання медіани для підсумовування набору даних має два потенційні недоліки:
Недолік №1: Медіана не використовує всі спостереження в наборі даних у своєму обчисленні. У статистиці ми зазвичай кажемо, що це добре, якщо ми можемо використовувати всі спостереження в наборі даних, тому що тоді ми використовуємо всю інформацію, доступну з наших даних. Однак медіана не враховує інформацію від надзвичайно малих або надзвичайно великих значень у наборі даних.
Недолік №2: медіану не можна використовувати для визначення суми всіх спостережень у наборі даних. Якщо ми знаємо середнє значення та загальний розмір вибірки набору даних, ми можемо знайти суму всіх значень у наборі даних. Однак ми не можемо зробити те саме з медіаною.
Наступні приклади ілюструють ці переваги та недоліки на практиці.
Приклад 1: переваги використання медіани
Припустімо, що у нас дуже нерівний розподіл зарплати, і ми вирішили обчислити як середню, так і медіанну зарплату:
Середнє значення говорить нам, що типова людина заробляє близько 47 000 доларів на рік, тоді як медіана говорить нам, що типова особа заробляє лише близько 32 000 доларів на рік, що є набагато більш репрезентативним для типової особи.
У цьому прикладі на середнє значення впливають найвищі значення в правому хвості розподілу, а на медіану – ні.
Або припустімо, що у нас є інший розподіл, що містить інформацію про квадратні метри будинків на певній вулиці, і ми вирішуємо обчислити як середнє, так і медіану набору даних:
На середнє значення впливають кілька надзвичайно великих будинків, через що воно приймає набагато вищу вартість.
Однак на медіану не впливають ці викиди, і тому вона набагато краще визначає «типову» площу будинку на цій вулиці.
Приклад 2: недоліки використання медіани
Нагадаємо перший потенційний недолік медіани:
Недолік №1: Медіана не використовує всі спостереження в наборі даних у своєму обчисленні.
Наприклад, припустімо, що ми маємо такий набір даних, який показує розподіл іспитових балів для студентів у класі:
Рейтинги: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Середній бал на іспиті – 83.
А тепер припустімо, що ми маємо той самий набір даних, але три найнижчі іспитові бали набагато нижчі:
Рейтинги: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Середній іспитовий бал у цьому розподілі все ще становить 83.
Ось чому ми говоримо, що медіана не використовує всю інформацію, доступну в наборі даних: вона не враховує фактичні значення даних, оскільки це лише міра положення.
Тепер давайте згадаємо другий потенційний недолік медіани:
Недолік №2: медіану не можна використовувати для визначення суми всіх спостережень у наборі даних.
Припустімо, що ми маємо наступний набір даних, що містить інформацію про загальний обсяг продажів, здійснених 11 різними працівниками за певний квартал:
Продажі: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38
Ми знаємо, що середнє значення становить 24, і ми знаємо, що загалом працює 11 працівників. Однак ми не можемо використовувати цю інформацію, щоб дізнатися загальну суму продажів усіх співробітників.
З іншого боку, якби ми знали, що середнє значення дорівнює 24 і що загалом працює 11 працівників, ми могли б просто помножити 24 на 11, щоб отримати загальну суму продажів 24 * 11 = 264.
Примітка . Залежно від розподілу ваших даних і проблеми, яку ви намагаєтеся вирішити, середнє або медіана може бути кращим показником для використання.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про середнє значення та медіану в статистиці:
Як викиди впливають на середнє значення?
Як оцінити середнє та медіану будь-якої гістограми
Як знайти середнє та медіану графіків стебла та листя