Как установить количество ячеек для гистограммы в ggplot2
Вы можете использовать аргумент bins , чтобы указать количество ячеек, которые будут использоваться в гистограмме в ggplot2 :
library (ggplot2) ggplot(df, aes (x=x)) + geom_histogram(bins= 10 )
Следующие примеры показывают, как использовать этот аргумент на практике.
Пример: установить количество интервалов для гистограммы в ggplot2
Следующий код показывает, как создать набор данных в R, содержащий 10 000 случайных значений, который соответствует распределению Пуассона со средним значением 2:
#make this example reproducible
set. seeds (0)
#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))
#view first five rows of data frame
head(df)
values
1 4
2 1
3 1
4 2
5 4
6 1
Мы можем использовать следующий код для создания гистограммы в ggplot2 для визуализации распределения значений во фрейме данных:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill=' steelblue ', col=' black ')
По умолчанию ggplot2 автоматически выбирает определенное количество полей для использования в гистограмме.
Однако мы можем использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 10 ячеек:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill=' steelblue ', col=' black ', bins= 10 )
Обратите внимание, что гистограмма теперь содержит ровно 10 ячеек.
Или мы могли бы использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 5 ячеек:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill=' steelblue ', col=' black ', bins= 5 )
Обратите внимание, что гистограмма теперь имеет ровно 5 ячеек.
Вы обнаружите, что чем меньше контейнеров вы используете, тем шире будет каждый контейнер.
В общем, если вы используете слишком мало групп, истинное базовое распределение значений будет скрыто.
Однако если вы используете слишком много групп, вы рискуете просто увидеть шум в данных.
Один из способов найти оптимальное количество интервалов для использования в гистограмме — использовать правило Стерджеса . Подробнее об этом правиле можно узнать здесь .
Примечание . Полную документацию по функции geom_histogram можно найти здесь .
Дополнительные ресурсы
В следующих руководствах объясняется, как создавать другие распространенные графики в R:
Как создать гистограмму относительной частоты в R
Как построить несколько коробчатых диаграмм на одном графике в R
Как построить несколько линий на графике в R