Що таке стерджес? лінійка? (визначення & #038; приклад)
Гістограма – це графік, який допомагає нам візуалізувати розподіл значень у наборі даних.
Виявляється, кількість квадратів, які використовуються в гістограмі, може мати величезний вплив на те, як ми інтерпретуємо дані.
Якщо ми використовуємо занадто мало груп, справжній основний шаблон у даних може бути прихований:

І якщо ми використовуємо занадто багато груп, ми можемо просто візуалізувати шум у наборі даних:

На щастя, ми можемо використовувати метод, відомий як правило Стерджеса, щоб визначити оптимальну кількість квадратів для використання на гістограмі.
Правило Стерджеса використовує наступну формулу для визначення оптимальної кількості груп для використання в гістограмі:
Оптимальні біни = ⌈log 2 n + 1⌉
золото:
- n: загальна кількість спостережень у наборі даних.
- ⌈ ⌉: символи, що означають «стеля», тобто округлення відповіді до найближчого цілого числа.
Приклад: правило Стерджеса
Припустимо, що ми маємо такий набір даних із n = 31 спостереженням:

Ми можемо використовувати правило Стерджеса, щоб визначити оптимальну кількість прямокутників для візуалізації цих значень на гістограмі:
Оптимальна кількість бункерів = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .
Згідно з правилом Стерджеса, ми повинні використовувати 6 бінів у гістограмі, яку ми використовуємо для візуалізації цього розподілу значень.
Ось як виглядала б гістограма з 6 груп для цього набору даних:

Зверніть увагу, що цього достатньо, щоб отримати гарне уявлення про основний розподіл значень, не надто багато, щоб просто візуалізувати шум у даних.
Загальні значення для правила Стерджеса
У наведеній нижче таблиці показано оптимальну кількість груп для використання в гістограмі на основі загальної кількості спостережень у наборі даних відповідно до правила Стерджеса:

Альтернативи правилу Стерджеса
Правило Стерджеса є найпоширенішим методом визначення оптимальної кількості бінів для використання на гістограмі, але існує кілька альтернативних методів, зокрема:
Правило квадратного кореня : кількість ящиків = ⌈√ n ⌉
Правило рису: кількість бункерів = ⌈2 * 3 √ n ⌉
Правило Фрідмана-Діаконіса: кількість коробок = (2*IQR) / 3 √ n , де IQR — інтерквартильний діапазон.
Бонус: калькулятор правила Стерджеса
Використовуйте цей безкоштовний онлайн-калькулятор, щоб автоматично застосувати правило Стерджеса для визначення оптимальної кількості груп для гістограми на основі розміру набору даних.