Як викиди впливають на середнє значення?
У статистиці середнє значення набору даних є середнім значенням. Це корисно знати, оскільки це дає нам уявлення про те, де знаходиться «центр» набору даних. Розраховується за простою формулою:
середнє = (сума спостережень) / (кількість спостережень)
Наприклад, припустимо, що ми маємо такий набір даних:
[1, 4, 5, 6, 7]
Середнє значення набору даних становить (1+4+5+6+7) / (5) = 4,6
Але навіть незважаючи на те, що середнє значення є корисним і його легко обчислити, воно має недолік: на нього можуть впливати викиди . Зокрема, чим менший набір даних, тим більше викид може вплинути на середнє значення.
Щоб проілюструвати це, розглянемо такий класичний приклад:
Десятеро чоловіків сидять у барі. Середній дохід десяти чоловіків становить 50 тисяч доларів. Раптом виходить чоловік і входить Білл Гейтс. Сьогодні середній дохід десяти чоловіків у барі становить 40 мільйонів доларів.
Цей приклад показує, як викид (Білл Гейтс) може суттєво вплинути на середнє значення.
Малі та великі викиди
Викид може впливати на середнє, будучи надзвичайно малим або надзвичайно великим. У попередньому прикладі Білл Гейтс мав надзвичайно високий дохід, що робило середнє значення оманливим.
Однак надзвичайно низьке значення також може вплинути на середнє значення. Щоб проілюструвати це, розглянемо такий приклад:
Десять студентів складають іспит і отримують такі оцінки:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Середній бал 84,6 .
Однак якщо ми видалимо оцінку «0» з набору даних, тоді середня оцінка стане 94 .
Незвично низький бал студента знижує середнє значення всього набору даних.
Розмір вибірки та викиди
Чим менший розмір вибірки набору даних, тим більша ймовірність, що викид вплине на середнє значення.
Наприклад, припустімо, що ми маємо набір даних із 100 іспитових балів, у яких усі студенти набрали щонайменше 90 балів або вище, за винятком одного студента, який набрав нуль:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
Середній показник виходить 93,18 . Якщо ми видалили «0» із набору даних, середнє значення буде 94,12 . Це відносно невелика різниця. Це показує, що навіть екстремальний викид має лише мінімальний ефект, якщо набір даних достатньо великий.
Як працювати з викидами
Якщо ви стурбовані тим, що у вашому наборі даних може бути викид, у вас є кілька варіантів:
- Переконайтеся, що викид не є результатом помилки введення даних. Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо викид є, спочатку переконайтеся, що значення було введено правильно та це не помилка.
- Призначте нове значення викиду . Якщо викид виявляється результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.
- Видаліть викид. Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.
Використовуйте медіану
Інший спосіб знайти «центр» набору даних — використовувати медіану , отриману шляхом упорядкування всіх окремих значень у наборі даних від найменшого до найбільшого та знаходження медіани.
Завдяки способу обчислення на медіану менше впливають викиди, і вона краще фіксує центральне розташування розподілу, коли є викиди.
Наприклад, розглянемо наступний графік, який показує площу будинків у певному районі:
На середнє значення сильно впливають кілька надзвичайно великих будинків, а на медіану – ні. Таким чином, медіана краще фіксує «типову» площу будинку в цьому районі, ніж середня.
Подальше читання:
Міри центральної тенденції – середнє, медіана та мода
Q-тест Діксона для виявлення викидів
Калькулятор викидів