Как установить количество ячеек для гистограммы в ggplot2


Вы можете использовать аргумент bins , чтобы указать количество ячеек, которые будут использоваться в гистограмме в ggplot2 :

 library (ggplot2)

ggplot(df, aes (x=x)) +
  geom_histogram(bins= 10 )

Следующие примеры показывают, как использовать этот аргумент на практике.

Пример: установить количество интервалов для гистограммы в ggplot2

Следующий код показывает, как создать набор данных в R, содержащий 10 000 случайных значений, который соответствует распределению Пуассона со средним значением 2:

 #make this example reproducible
set. seeds (0)

#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))

#view first five rows of data frame
head(df)

  values
1 4
2 1
3 1
4 2
5 4
6 1

Мы можем использовать следующий код для создания гистограммы в ggplot2 для визуализации распределения значений во фрейме данных:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ') 

По умолчанию ggplot2 автоматически выбирает определенное количество полей для использования в гистограмме.

Однако мы можем использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 10 ячеек:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 10 ) 

Обратите внимание, что гистограмма теперь содержит ровно 10 ячеек.

Или мы могли бы использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 5 ячеек:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 5 ) 

Обратите внимание, что гистограмма теперь имеет ровно 5 ячеек.

Вы обнаружите, что чем меньше контейнеров вы используете, тем шире будет каждый контейнер.

В общем, если вы используете слишком мало групп, истинное базовое распределение значений будет скрыто.

Однако если вы используете слишком много групп, вы рискуете просто увидеть шум в данных.

Один из способов найти оптимальное количество интервалов для использования в гистограмме — использовать правило Стерджеса . Подробнее об этом правиле можно узнать здесь .

Примечание . Полную документацию по функции geom_histogram можно найти здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как создавать другие распространенные графики в R:

Как создать гистограмму относительной частоты в R
Как построить несколько коробчатых диаграмм на одном графике в R
Как построить несколько линий на графике в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *