A: як змінити кількість бінів на гістограмі
Коли ви створюєте гістограму в R, для визначення оптимальної кількості груп використовується формула, відома як правило Стерджеса .
Однак ви можете використати наведений нижче синтаксис, щоб замінити цю формулу та вказати точну кількість груп для використання на гістограмі:
hist(data, breaks = seq(min(data), max(data), length. out = 7 ))
Зауважте, що кількість груп, використаних у гістограмі, буде на одиницю меншою, ніж кількість, указана в аргументі length.out .
Наступні приклади показують, як використовувати цей синтаксис на практиці.
Приклад 1: Створення базової гістограми
Наступний код показує, як створити базову гістограму в R без вказівки кількості бінів:
#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)
#create histogram of data
hist(data, col = ' lightblue ')
Використовуючи правило Стерджеса, R вирішив використати в гістограмі загалом 8 груп.
Приклад 2: укажіть кількість бінів для використання на гістограмі
Наступний код показує, як створити гістограму для того самого вектора даних і використовувати рівно 6 груп:
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 6 bins hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 7 ))
Застереження щодо вибору певної кількості бункерів
Кількість груп, що використовуються в гістограмі, має величезний вплив на те, як ми інтерпретуємо набір даних.
Якщо ми використовуємо занадто мало груп, справжній основний шаблон у даних може бути прихований:
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 3 bins hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 4 ))
І навпаки, якщо ми використовуємо занадто багато груп, ми можемо просто візуалізувати шум у наборі даних:
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 15 bins hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 16 ))
Загалом правило Стерджеса за замовчуванням, що використовується в R, має тенденцію створювати гістограми з оптимальною кількістю груп.
Не соромтеся використовувати наданий тут код, щоб створити гістограму з точною кількістю бінів, але будьте обережні, щоб не вибрати занадто багато або занадто мало бінів.
Додаткові ресурси
У наступних посібниках пояснюється, як виконувати інші поширені функції за допомогою гістограм у R:
Як побудувати декілька гістограм у R
Як створити гістограму двох змінних у R
Як створити гістограму відносної частоти в R