Como especificar quebras de histograma em r (com exemplos)


Por padrão, a função hist() em R usa a regra de Sturges para determinar o número de caixas a serem usadas em um histograma.

A regra de Sturges usa a seguinte fórmula para determinar o número ideal de grupos a serem usados em um histograma:

Caixas ideais = ⌈log 2 n + 1⌉

Ouro:

  • n: o número total de observações no conjunto de dados.
  • ⌈ ⌉: Símbolos que significam “teto”, ou seja, arredondamento da resposta para o número inteiro mais próximo.

Por exemplo, se houver 31 observações num conjunto de dados, a regra de Sturge utilizará a seguinte fórmula para determinar o número ideal de grupos a utilizar num histograma:

Bins ideais = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

De acordo com a regra de Sturges, devemos usar 6 caixas no histograma para visualizar este conjunto de dados.

Se você usar a função hist() em R, a regra de Sturges será usada para escolher automaticamente o número de caixas a serem exibidas no histograma.

 hist(data)

Mesmo se você usar o argumento breaks para especificar um número diferente de compartimentos a serem usados, R apenas o usará como uma “sugestão” de quantos compartimentos usar.

 hist(data, breaks= 7 )

No entanto, você pode usar o código a seguir para forçar R a usar um número específico de caixas em um histograma:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Nota : Você deve usar um comprimento de n+1 para length.out onde n é o número de compartimentos desejados.

O exemplo a seguir mostra como usar esse código na prática.

Exemplo: Especificando quebras de histograma em R

Suponha que temos o seguinte conjunto de dados em R com 16 valores:

 #create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

Se usarmos a função hist() , R criará o seguinte histograma com 5 compartimentos:

 #create histogram
hist(data)

Nota : R usou a regra de Sturges para determinar que 5 grupos era o número ideal de grupos a serem usados para visualizar um conjunto de dados com 16 observações.

Se tentarmos usar o argumento breaks para especificar 7 grupos para usar no histograma, R apenas tomará isso como uma “sugestão” e escolherá usar 10 grupos:

 #attempt to create histogram with 7 bins
hist(data, breaks= 7 ) 

No entanto, podemos usar o seguinte código para forçar R a usar 7 compartimentos no histograma:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Observe que o resultado é um histograma com 7 caixas igualmente espaçadas.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns em R:

Como criar um histograma de frequência relativa em R
Como plotar vários histogramas em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *