Як встановити кількість бінів для гістограми в ggplot2


Ви можете використовувати аргумент bins , щоб вказати кількість бінів для використання в гістограмі в ggplot2 :

 library (ggplot2)

ggplot(df, aes (x=x)) +
  geom_histogram(bins= 10 )

Наступні приклади показують, як використовувати цей аргумент на практиці.

Приклад: установіть кількість бінів для гістограми в ggplot2

Наступний код показує, як створити набір даних у R, що містить 10 000 випадкових значень, які відповідають розподілу Пуассона із середнім значенням 2:

 #make this example reproducible
set. seeds (0)

#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))

#view first five rows of data frame
head(df)

  values
1 4
2 1
3 1
4 2
5 4
6 1

Ми можемо використовувати наступний код для створення гістограми в ggplot2 для візуалізації розподілу значень у кадрі даних:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ') 

За замовчуванням ggplot2 автоматично вибере певну кількість полів для використання на гістограмі.

Однак ми можемо використовувати наступний синтаксис, щоб вказати, що ми хочемо, щоб гістограма використовувала 10 бінів:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 10 ) 

Зауважте, що гістограма тепер має рівно 10 прямокутників.

Або ми можемо використати такий синтаксис, щоб вказати, що ми хочемо, щоб гістограма використовувала 5 бінів:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 5 ) 

Зауважте, що гістограма тепер має рівно 5 прямокутників.

Ви побачите, що чим менше бункерів ви використовуєте, тим ширшим буде кожен бункер.

Загалом, якщо ви використовуєте занадто мало груп, справжній базовий розподіл значень буде приховано.

Однак якщо ви використовуєте занадто багато груп, ви ризикуєте просто побачити шум у даних.

Один із способів знайти оптимальну кількість бінів для використання на гістограмі — це використовувати правило Стерджеса . Дізнайтеся більше про це правило тут .

Примітка . Ви можете знайти повну документацію для функції geom_histogram тут .

Додаткові ресурси

У наступних посібниках пояснюється, як створювати інші типові графіки в R:

Як створити гістограму відносної частоти в R
Як побудувати кілька коробкових графіків на одному графіку в R
Як побудувати кілька ліній на графіку в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *