A: как изменить количество ячеек в гистограмме


Когда вы создаете гистограмму в R, для определения оптимального количества используемых групп используется формула, известная как правило Стерджеса .

Однако вы можете использовать следующий синтаксис, чтобы переопределить эту формулу и указать точное количество групп для использования в гистограмме:

 hist(data, breaks = seq(min(data), max(data), length. out = 7 ))

Обратите внимание, что количество групп, используемых в гистограмме, будет на единицу меньше, чем число, указанное в аргументе length.out .

Следующие примеры показывают, как использовать этот синтаксис на практике.

Пример 1. Создайте базовую гистограмму

Следующий код показывает, как создать базовую гистограмму в R без указания количества интервалов:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram of data
hist(data, col = ' lightblue ') 

Используя правило Стерджеса, R решил использовать в гистограмме всего 8 групп.

Пример 2. Укажите количество интервалов для использования в гистограмме.

Следующий код показывает, как создать гистограмму для того же вектора данных и использовать ровно 6 групп:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 6 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 7 )) 

Меры предосторожности при выборе определенного количества бункеров

Количество групп, используемых в гистограмме, оказывает огромное влияние на то, как мы интерпретируем набор данных.

Если мы используем слишком мало групп, истинная основная закономерность в данных может быть скрыта:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 3 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 4 )) 

И наоборот, если мы используем слишком много групп, мы можем просто визуализировать шум в наборе данных:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 15 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 16 )) 

В общем, правило Стерджеса по умолчанию, используемое в R, имеет тенденцию создавать гистограммы с оптимальным количеством групп.

Не стесняйтесь использовать приведенный здесь код для создания гистограммы с точным количеством интервалов, но будьте осторожны и не выбирайте слишком много или слишком мало интервалов.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные функции с гистограммами в R:

Как построить несколько гистограмм в R
Как создать гистограмму двух переменных в R
Как создать гистограмму относительной частоты в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *