Чому режим важливий у статистиці?


Режим представляє значення, яке найчастіше з’являється в наборі даних.

Набір даних не може мати режимів (якщо значення не повторюються), один режим або кілька режимів.

Наприклад, режим у наступному наборі даних становить 19:

Набір даних: 3, 4, 11, 15, 19 , 19, 19 , 22 , 22, 23, 23, 26

Це значення, яке зустрічається найчастіше.

У статистиці режим важливий з таких причин:

Причина 1 : це дозволяє нам знати, які значення в наборі даних є найпоширенішими.

Причина 2 : це корисно для пошуку найбільш поширених значень у категоріальних даних, коли середнє значення та медіану неможливо обчислити.

Причина 3 : це дає нам уявлення про те, де знаходиться «центр» набору даних, навіть якщо медіана та середнє використовуються частіше (як ми побачимо далі в цій статті).

Наступні приклади ілюструють кожну з цих причин на практиці.

Причина 1: Режим повідомляє нам, яке значення є найпоширенішим

Припустімо, у нас є набір даних із 100 000 рядків, що містять ціни продажу будинків у Сполучених Штатах:

Припустімо, що ми використовуємо статистичне програмне забезпечення (наприклад, Excel , R , Python тощо), щоб обчислити режим цього набору даних і виявимо, що існує три режими:

  • 280 000 доларів США
  • 300 000 доларів США
  • 305 000 доларів США

Це одразу дає нам уявлення про найпоширеніші ціни на житло в наборі даних.

Обчислення режиму тисяч також набагато швидше, ніж перегляд рядків даних і спроба визначити, які ціни на житло зустрічаються найчастіше.

Причина 2: режим шукає найбільш поширене значення в категоріальних даних

Припустімо, що ми маємо набір даних із 1000 рядків, які повідомляють нам про колір автомобіля, що належить особам у певному районі:

Змінна «колір» є категоріальною змінною , що означає, що значення належать до категорій («червоний», «жовтий», «чорний» тощо), і тому ми не можемо обчислити кількісне значення, наприклад середнє або медіана .

Однак ми можемо обчислити режим, оскільки він просто представляє найбільш поширене значення в наборі даних.

Наприклад, ми могли б використати статистичне програмне забезпечення, щоб визначити, що режим цього набору даних — «чорний», що говорить нам, що найпоширеніший колір автомобіля в цьому наборі даних — чорний.

Причина 3: Режим дає нам уявлення про те, де знаходиться центр набору даних

Режим також вважається мірою центральної тенденції , тобто він може дати нам уявлення про те, де знаходиться «центр» набору даних.

Наприклад, припустімо, що ми маємо такий набір даних, який показує результати іспитів 20 різних студентів у класі:

Режим виявляється 82 – це найпоширеніший бал на іспиті. Це також виявляється хорошим показником того, де в цьому наборі даних лежить «основне» значення оцінки в огляді.

Однак припустімо, що натомість ми маємо такий набір даних результатів іспиту:

У цьому наборі даних 72 – це бал іспиту з моди. Однак це виявляється поганим показником того, де лежить «базова» оцінка іспиту.

Середній бал іспиту становить 82,9 , а середній бал іспиту – 82,5 , обидва вони дають нам краще уявлення про те, де лежить «центральне» значення по відношенню до моди.

Резюме

Ось короткий виклад основних моментів, розглянутих у цій статті:

  • Режим представляє значення(-я), які найчастіше з’являються в наборі даних.
  • Режим повідомляє нам найпоширеніше значення в категоричних даних, коли середнє значення та медіана не можуть бути використані.
  • Режим дає нам уявлення про те, де знаходиться «центр» набору даних, але він може ввести в оману в порівнянні із середнім або медіаною.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про середнє значення, медіану та режим у статистиці:

Чому середня величина важлива в статистиці?
Чому медіана важлива в статистиці?
Конкретні приклади: використання середнього значення, медіани та моди
Коли використовувати середнє проти Медіана: з прикладами

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *