Hoe het aantal bakken voor een histogram in ggplot2 in te stellen


U kunt het argument bins gebruiken om het aantal bins op te geven dat in een histogram in ggplot2 moet worden gebruikt:

 library (ggplot2)

ggplot(df, aes (x=x)) +
  geom_histogram(bins= 10 )

De volgende voorbeelden laten zien hoe u dit argument in de praktijk kunt gebruiken.

Voorbeeld: stel het aantal bakken in voor histogram in ggplot2

De volgende code laat zien hoe je een dataset in R kunt maken met 10.000 willekeurige waarden die een Poisson-verdeling volgt met een gemiddelde waarde van 2:

 #make this example reproducible
set. seeds (0)

#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))

#view first five rows of data frame
head(df)

  values
1 4
2 1
3 1
4 2
5 4
6 1

We kunnen de volgende code gebruiken om een histogram in ggplot2 te maken om de verdeling van waarden in het dataframe te visualiseren:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ') 

Standaard selecteert ggplot2 automatisch een bepaald aantal vakken om in het histogram te gebruiken.

We kunnen echter de volgende syntaxis gebruiken om aan te geven dat we willen dat het histogram 10 bakken gebruikt:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 10 ) 

Merk op dat het histogram nu precies 10 vakken heeft.

Of we kunnen de volgende syntaxis gebruiken om te specificeren dat we willen dat het histogram 5 bakken gebruikt:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 5 ) 

Merk op dat het histogram nu precies 5 vakjes heeft.

U zult merken dat hoe minder bakken u gebruikt, hoe breder elke bak zal zijn.

Als u te weinig groepen gebruikt, zal de werkelijke onderliggende verdeling van waarden over het algemeen verborgen blijven.

Als u echter te veel groepen gebruikt, loopt u het risico dat u eenvoudigweg ruis in de gegevens ziet.

Eén manier om het optimale aantal bakken te vinden dat in een histogram kan worden gebruikt, is door de regel van Sturges te gebruiken. Lees hier meer over deze regel.

Opmerking : u kunt hier de volledige documentatie voor de functie geom_histogram vinden.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelgebruikte grafieken in R kunt maken:

Hoe maak je een relatief frequentiehistogram in R
Hoe meerdere boxplots in één grafiek in R te plotten
Hoe meerdere lijnen in een grafiek te plotten in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert