A: как изменить количество ячеек в гистограмме
Когда вы создаете гистограмму в R, для определения оптимального количества используемых групп используется формула, известная как правило Стерджеса .
Однако вы можете использовать следующий синтаксис, чтобы переопределить эту формулу и указать точное количество групп для использования в гистограмме:
hist(data, breaks = seq(min(data), max(data), length. out = 7 ))
Обратите внимание, что количество групп, используемых в гистограмме, будет на единицу меньше, чем число, указанное в аргументе length.out .
Следующие примеры показывают, как использовать этот синтаксис на практике.
Пример 1. Создайте базовую гистограмму
Следующий код показывает, как создать базовую гистограмму в R без указания количества интервалов:
#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)
#create histogram of data
hist(data, col = ' lightblue ')
Используя правило Стерджеса, R решил использовать в гистограмме всего 8 групп.
Пример 2. Укажите количество интервалов для использования в гистограмме.
Следующий код показывает, как создать гистограмму для того же вектора данных и использовать ровно 6 групп:
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 6 bins hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 7 ))
Меры предосторожности при выборе определенного количества бункеров
Количество групп, используемых в гистограмме, оказывает огромное влияние на то, как мы интерпретируем набор данных.
Если мы используем слишком мало групп, истинная основная закономерность в данных может быть скрыта:
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 3 bins hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 4 ))
И наоборот, если мы используем слишком много групп, мы можем просто визуализировать шум в наборе данных:
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 15 bins hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 16 ))
В общем, правило Стерджеса по умолчанию, используемое в R, имеет тенденцию создавать гистограммы с оптимальным количеством групп.
Не стесняйтесь использовать приведенный здесь код для создания гистограммы с точным количеством интервалов, но будьте осторожны и не выбирайте слишком много или слишком мало интервалов.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные функции с гистограммами в R:
Как построить несколько гистограмм в R
Как создать гистограмму двух переменных в R
Как создать гистограмму относительной частоты в R