A: як змінити кількість бінів на гістограмі


Коли ви створюєте гістограму в R, для визначення оптимальної кількості груп використовується формула, відома як правило Стерджеса .

Однак ви можете використати наведений нижче синтаксис, щоб замінити цю формулу та вказати точну кількість груп для використання на гістограмі:

 hist(data, breaks = seq(min(data), max(data), length. out = 7 ))

Зауважте, що кількість груп, використаних у гістограмі, буде на одиницю меншою, ніж кількість, указана в аргументі length.out .

Наступні приклади показують, як використовувати цей синтаксис на практиці.

Приклад 1: Створення базової гістограми

Наступний код показує, як створити базову гістограму в R без вказівки кількості бінів:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram of data
hist(data, col = ' lightblue ') 

Використовуючи правило Стерджеса, R вирішив використати в гістограмі загалом 8 груп.

Приклад 2: укажіть кількість бінів для використання на гістограмі

Наступний код показує, як створити гістограму для того самого вектора даних і використовувати рівно 6 груп:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 6 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 7 )) 

Застереження щодо вибору певної кількості бункерів

Кількість груп, що використовуються в гістограмі, має величезний вплив на те, як ми інтерпретуємо набір даних.

Якщо ми використовуємо занадто мало груп, справжній основний шаблон у даних може бути прихований:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 3 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 4 )) 

І навпаки, якщо ми використовуємо занадто багато груп, ми можемо просто візуалізувати шум у наборі даних:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 15 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 16 )) 

Загалом правило Стерджеса за замовчуванням, що використовується в R, має тенденцію створювати гістограми з оптимальною кількістю груп.

Не соромтеся використовувати наданий тут код, щоб створити гістограму з точною кількістю бінів, але будьте обережні, щоб не вибрати занадто багато або занадто мало бінів.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші поширені функції за допомогою гістограм у R:

Як побудувати декілька гістограм у R
Як створити гістограму двох змінних у R
Як створити гістограму відносної частоти в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *