Що таке стерджес? лінійка? (визначення & #038; приклад)


Гістограма – це графік, який допомагає нам візуалізувати розподіл значень у наборі даних.

Виявляється, кількість квадратів, які використовуються в гістограмі, може мати величезний вплив на те, як ми інтерпретуємо дані.

Якщо ми використовуємо занадто мало груп, справжній основний шаблон у даних може бути прихований:

І якщо ми використовуємо занадто багато груп, ми можемо просто візуалізувати шум у наборі даних:

На щастя, ми можемо використовувати метод, відомий як правило Стерджеса, щоб визначити оптимальну кількість квадратів для використання на гістограмі.

Правило Стерджеса використовує наступну формулу для визначення оптимальної кількості груп для використання в гістограмі:

Оптимальні біни = ⌈log 2 n + 1⌉

золото:

  • n: загальна кількість спостережень у наборі даних.
  • ⌈ ⌉: символи, що означають «стеля», тобто округлення відповіді до найближчого цілого числа.

Приклад: правило Стерджеса

Припустимо, що ми маємо такий набір даних із n = 31 спостереженням:

Ми можемо використовувати правило Стерджеса, щоб визначити оптимальну кількість прямокутників для візуалізації цих значень на гістограмі:

Оптимальна кількість бункерів = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Згідно з правилом Стерджеса, ми повинні використовувати 6 бінів у гістограмі, яку ми використовуємо для візуалізації цього розподілу значень.

Ось як виглядала б гістограма з 6 груп для цього набору даних:

Використання правила Стерджеса для визначення кількості прямокутників для використання на гістограмі

Зверніть увагу, що цього достатньо, щоб отримати гарне уявлення про основний розподіл значень, не надто багато, щоб просто візуалізувати шум у даних.

Загальні значення для правила Стерджеса

У наведеній нижче таблиці показано оптимальну кількість груп для використання в гістограмі на основі загальної кількості спостережень у наборі даних відповідно до правила Стерджеса:

Правило Стерджеса для різних розмірів вибірки

Альтернативи правилу Стерджеса

Правило Стерджеса є найпоширенішим методом визначення оптимальної кількості бінів для використання на гістограмі, але існує кілька альтернативних методів, зокрема:

Правило квадратного кореня : кількість ящиків = ⌈√ n

Правило рису: кількість бункерів = ⌈2 * 3n

Правило Фрідмана-Діаконіса: кількість коробок = (2*IQR) / 3n , де IQR — інтерквартильний діапазон.

Бонус: калькулятор правила Стерджеса

Використовуйте цей безкоштовний онлайн-калькулятор, щоб автоматично застосувати правило Стерджеса для визначення оптимальної кількості груп для гістограми на основі розміру набору даних.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *