Что такое стерджес? линейка? (определение & #038; пример)
Гистограмма — это график, который помогает нам визуализировать распределение значений в наборе данных.
Оказывается, количество ячеек, используемых в гистограмме, может иметь огромное влияние на то, как мы интерпретируем данные.
Если мы используем слишком мало групп, истинная основная закономерность в данных может быть скрыта:
А если мы используем слишком много групп, мы можем просто визуализировать шум в наборе данных:
К счастью, мы можем использовать метод, известный как правило Стерджеса, чтобы определить оптимальное количество ячеек для использования в гистограмме.
Правило Стерджеса использует следующую формулу для определения оптимального количества групп для использования в гистограмме:
Оптимальные интервалы = ⌈log 2 n + 1⌉
Золото:
- n: общее количество наблюдений в наборе данных.
- ⌈ ⌉: символы, означающие «потолок», т.е. округление ответа до ближайшего целого числа.
Пример: правило Стерджеса
Предположим, у нас есть следующий набор данных с n = 31 наблюдением:
Мы можем использовать правило Стерджеса, чтобы определить оптимальное количество ячеек для визуализации этих значений на гистограмме:
Оптимальные интервалы = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .
Согласно правилу Стерджеса, мы должны использовать 6 ячеек в гистограмме, которую мы используем для визуализации этого распределения значений.
Вот как будет выглядеть гистограмма с 6 группами для этого набора данных:
Обратите внимание, что этого кажется достаточным, чтобы получить хорошее представление об основном распределении значений, но при этом их не слишком много, чтобы просто визуализировать шум в данных.
Общие ценности для правления Стерджеса
В следующей таблице показано оптимальное количество групп для использования в гистограмме на основе общего количества наблюдений в наборе данных в соответствии с правилом Стерджеса:
Альтернативы правлению Стерджеса
Правило Стерджеса — наиболее распространенный метод определения оптимального количества интервалов для использования в гистограмме, но существует несколько альтернативных методов, в том числе:
Правило квадратного корня : количество ячеек = ⌈√ n ⌉
Правило риса: количество бункеров = ⌈2 * 3 √ n ⌉
Правило Фридмана-Диакониса: количество ячеек = (2*IQR) / 3 √ n , где IQR — это межквартильный размах.
Бонус: калькулятор правил Стерджеса
Используйте этот бесплатный онлайн-калькулятор, чтобы автоматически применить правило Стерджеса и определить оптимальное количество групп для использования в гистограмме в зависимости от размера набора данных.