A: hoe u het aantal bakken in het histogram kunt wijzigen


Wanneer u een histogram maakt in R, wordt een formule gebruikt die bekend staat als de regel van Sturges om het optimale aantal te gebruiken groepen te bepalen.

U kunt echter de volgende syntaxis gebruiken om deze formule te overschrijven en een exact aantal groepen op te geven dat u in het histogram wilt gebruiken:

 hist(data, breaks = seq(min(data), max(data), length. out = 7 ))

Houd er rekening mee dat het aantal groepen dat in het histogram wordt gebruikt één minder zal zijn dan het aantal dat is opgegeven in het argument length.out .

De volgende voorbeelden laten zien hoe u deze syntaxis in de praktijk kunt gebruiken.

Voorbeeld 1: Maak een basishistogram

De volgende code laat zien hoe u een basishistogram in R maakt zonder het aantal bakken op te geven:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram of data
hist(data, col = ' lightblue ') 

Met behulp van de regel van Sturges besloot R in totaal 8 groepen in het histogram te gebruiken.

Voorbeeld 2: Geef het aantal bakken op dat in het histogram moet worden gebruikt

De volgende code laat zien hoe u een histogram maakt voor dezelfde gegevensvector en precies zes groepen gebruikt:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 6 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 7 )) 

Voorzorgsmaatregelen voor het kiezen van een specifiek aantal bakken

Het aantal groepen dat in een histogram wordt gebruikt, heeft een enorme impact op de manier waarop we een dataset interpreteren.

Als we te weinig groepen gebruiken, kan het echte onderliggende patroon in de gegevens verborgen blijven:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 3 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 4 )) 

Omgekeerd, als we te veel groepen gebruiken, kunnen we eenvoudigweg de ruis in een dataset visualiseren:

 #define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 15 bins
hist(data, col = ' lightblue ', breaks = seq(min(data), max(data), length. out = 16 )) 

Over het algemeen heeft de standaard Sturges-regel die in R wordt gebruikt de neiging histogrammen te produceren met een optimaal aantal groepen.

Voel je vrij om de hier gegeven code te gebruiken om een histogram te maken met een exact aantal bakken, maar zorg ervoor dat je niet te veel of te weinig bakken kiest.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende functies met histogrammen in R kunt uitvoeren:

Hoe meerdere histogrammen in R te plotten
Hoe maak je een histogram van twee variabelen in R
Hoe maak je een relatief frequentiehistogram in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert