Como especificar quebras de histograma em r (com exemplos)
Por padrão, a função hist() em R usa a regra de Sturges para determinar o número de caixas a serem usadas em um histograma.
A regra de Sturges usa a seguinte fórmula para determinar o número ideal de grupos a serem usados em um histograma:
Caixas ideais = ⌈log 2 n + 1⌉
Ouro:
- n: o número total de observações no conjunto de dados.
- ⌈ ⌉: Símbolos que significam “teto”, ou seja, arredondamento da resposta para o número inteiro mais próximo.
Por exemplo, se houver 31 observações num conjunto de dados, a regra de Sturge utilizará a seguinte fórmula para determinar o número ideal de grupos a utilizar num histograma:
Bins ideais = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .
De acordo com a regra de Sturges, devemos usar 6 caixas no histograma para visualizar este conjunto de dados.
Se você usar a função hist() em R, a regra de Sturges será usada para escolher automaticamente o número de caixas a serem exibidas no histograma.
hist(data)
Mesmo se você usar o argumento breaks para especificar um número diferente de compartimentos a serem usados, R apenas o usará como uma “sugestão” de quantos compartimentos usar.
hist(data, breaks= 7 )
No entanto, você pode usar o código a seguir para forçar R a usar um número específico de caixas em um histograma:
#create histogram with 7 bins hist(data, breaks = seq(min(data), max(data), length. out = 8 ))
Nota : Você deve usar um comprimento de n+1 para length.out onde n é o número de compartimentos desejados.
O exemplo a seguir mostra como usar esse código na prática.
Exemplo: Especificando quebras de histograma em R
Suponha que temos o seguinte conjunto de dados em R com 16 valores:
#create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)
Se usarmos a função hist() , R criará o seguinte histograma com 5 compartimentos:
#create histogram
hist(data)
Nota : R usou a regra de Sturges para determinar que 5 grupos era o número ideal de grupos a serem usados para visualizar um conjunto de dados com 16 observações.
Se tentarmos usar o argumento breaks para especificar 7 grupos para usar no histograma, R apenas tomará isso como uma “sugestão” e escolherá usar 10 grupos:
#attempt to create histogram with 7 bins
hist(data, breaks= 7 )
No entanto, podemos usar o seguinte código para forçar R a usar 7 compartimentos no histograma:
#create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))
Observe que o resultado é um histograma com 7 caixas igualmente espaçadas.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras operações comuns em R:
Como criar um histograma de frequência relativa em R
Como plotar vários histogramas em R