Come specificare le interruzioni dell'istogramma in r (con esempi)


Per impostazione predefinita, la funzione hist() in R utilizza la regola di Sturges per determinare il numero di contenitori da utilizzare in un istogramma.

La regola di Sturges utilizza la seguente formula per determinare il numero ottimale di gruppi da utilizzare in un istogramma:

Bin ottimali = ⌈log 2 n + 1⌉

Oro:

  • n: il numero totale di osservazioni nel set di dati.
  • ⌈ ⌉: Simboli che significano “tetto”, ovvero arrotondano il risultato al numero intero più vicino.

Ad esempio, se in un set di dati sono presenti 31 osservazioni, la regola di Sturge utilizzerà la seguente formula per determinare il numero ottimale di gruppi da utilizzare in un istogramma:

Contenitori ottimali = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .

Secondo la regola di Sturges, dovremmo utilizzare 6 caselle nell’istogramma per visualizzare questo set di dati.

Se si utilizza la funzione hist() in R, verrà utilizzata la regola di Sturges per scegliere automaticamente il numero di contenitori da visualizzare nell’istogramma.

 hist(data)

Anche se si utilizza l’argomento pause per specificare un numero diverso di contenitori da utilizzare, R lo utilizzerà solo come “suggerimento” su quanti contenitori utilizzare.

 hist(data, breaks= 7 )

Tuttavia, puoi utilizzare il seguente codice per forzare R a utilizzare un numero specifico di caselle in un istogramma:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Nota : è necessario utilizzare una lunghezza pari a n+1 per length.out dove n è il numero di contenitori desiderati.

L’esempio seguente mostra come utilizzare questo codice nella pratica.

Esempio: specifica delle interruzioni dell’istogramma in R

Supponiamo di avere il seguente set di dati in R con 16 valori:

 #create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

Se utilizziamo la funzione hist() , R creerà il seguente istogramma con 5 contenitori:

 #create histogram
hist(data)

Nota : R ha utilizzato la regola di Sturges per determinare che 5 gruppi erano il numero ottimale di gruppi da utilizzare per visualizzare un set di dati con 16 osservazioni.

Se proviamo a utilizzare l’argomento pause per specificare 7 gruppi da utilizzare nell’istogramma, R lo prenderà solo come un “suggerimento” e sceglierà invece di utilizzare 10 gruppi:

 #attempt to create histogram with 7 bins
hist(data, breaks= 7 ) 

Tuttavia, possiamo utilizzare il seguente codice per forzare R a utilizzare 7 contenitori nell’istogramma:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Tieni presente che il risultato è un istogramma con 7 riquadri equidistanti.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni in R:

Come creare un istogramma di frequenza relativo in R
Come tracciare più istogrammi in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *