Что такое стерджес? линейка? (определение & #038; пример)


Гистограмма — это график, который помогает нам визуализировать распределение значений в наборе данных.

Оказывается, количество ячеек, используемых в гистограмме, может иметь огромное влияние на то, как мы интерпретируем данные.

Если мы используем слишком мало групп, истинная основная закономерность в данных может быть скрыта:

А если мы используем слишком много групп, мы можем просто визуализировать шум в наборе данных:

К счастью, мы можем использовать метод, известный как правило Стерджеса, чтобы определить оптимальное количество ячеек для использования в гистограмме.

Правило Стерджеса использует следующую формулу для определения оптимального количества групп для использования в гистограмме:

Оптимальные интервалы = ⌈log 2 n + 1⌉

Золото:

  • n: общее количество наблюдений в наборе данных.
  • ⌈ ⌉: символы, означающие «потолок», т.е. округление ответа до ближайшего целого числа.

Пример: правило Стерджеса

Предположим, у нас есть следующий набор данных с n = 31 наблюдением:

Мы можем использовать правило Стерджеса, чтобы определить оптимальное количество ячеек для визуализации этих значений на гистограмме:

Оптимальные интервалы = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Согласно правилу Стерджеса, мы должны использовать 6 ячеек в гистограмме, которую мы используем для визуализации этого распределения значений.

Вот как будет выглядеть гистограмма с 6 группами для этого набора данных:

Использование правила Стерджеса для определения количества ячеек для использования в гистограмме

Обратите внимание, что этого кажется достаточным, чтобы получить хорошее представление об основном распределении значений, но при этом их не слишком много, чтобы просто визуализировать шум в данных.

Общие ценности для правления Стерджеса

В следующей таблице показано оптимальное количество групп для использования в гистограмме на основе общего количества наблюдений в наборе данных в соответствии с правилом Стерджеса:

Правило Стерджеса для разных размеров выборки

Альтернативы правлению Стерджеса

Правило Стерджеса — наиболее распространенный метод определения оптимального количества интервалов для использования в гистограмме, но существует несколько альтернативных методов, в том числе:

Правило квадратного корня : количество ячеек = ⌈√ n

Правило риса: количество бункеров = ⌈2 * 3n

Правило Фридмана-Диакониса: количество ячеек = (2*IQR) / 3n , где IQR — это межквартильный размах.

Бонус: калькулятор правил Стерджеса

Используйте этот бесплатный онлайн-калькулятор, чтобы автоматически применить правило Стерджеса и определить оптимальное количество групп для использования в гистограмме в зависимости от размера набора данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *