Histogramonderbrekingen in r specificeren (met voorbeelden)


Standaard gebruikt de functie hist() in R de regel van Sturges om het aantal bins te bepalen dat in een histogram moet worden gebruikt.

De regel van Sturges gebruikt de volgende formule om het optimale aantal groepen te bepalen dat in een histogram kan worden gebruikt:

Optimale bakken = ⌈log 2 n + 1⌉

Goud:

  • n: het totale aantal waarnemingen in de dataset.
  • ⌈ ⌉: Symbolen die “plafond” betekenen, dwz het antwoord afronden op het dichtstbijzijnde gehele getal.

Als een gegevensset bijvoorbeeld 31 waarnemingen bevat, gebruikt de regel van Sturge de volgende formule om het optimale aantal groepen te bepalen dat in een histogram moet worden gebruikt:

Optimale bakken = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .

Volgens de regel van Sturges moeten we zes vakken in het histogram gebruiken om deze gegevensset te visualiseren.

Als u de functie hist() in R gebruikt, wordt de regel van Sturges gebruikt om automatisch het aantal bakken te kiezen dat in het histogram moet worden weergegeven.

 hist(data)

Zelfs als u het breaks- argument gebruikt om een ander aantal te gebruiken bakken op te geven, zal R dit alleen gebruiken als een „suggestie“ van het aantal te gebruiken bakken.

 hist(data, breaks= 7 )

U kunt echter de volgende code gebruiken om R te dwingen een specifiek aantal vakken in een histogram te gebruiken:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Opmerking : u moet een lengte van n+1 gebruiken voor length.out, waarbij n het aantal gewenste bakken is.

Het volgende voorbeeld laat zien hoe u deze code in de praktijk kunt gebruiken.

Voorbeeld: histogramonderbrekingen opgeven in R

Stel dat we de volgende gegevensset in R hebben met 16 waarden:

 #create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

Als we de functie hist() gebruiken, zal R het volgende histogram met 5 bakken maken:

 #create histogram
hist(data)

Opmerking : R gebruikte de regel van Sturges om te bepalen dat 5 groepen het optimale aantal groepen was om te gebruiken om een dataset met 16 observaties te visualiseren.

Als we het breaks- argument proberen te gebruiken om 7 groepen te specificeren voor gebruik in het histogram, zal R dit alleen als een „suggestie“ beschouwen en ervoor kiezen om in plaats daarvan 10 groepen te gebruiken:

 #attempt to create histogram with 7 bins
hist(data, breaks= 7 ) 

We kunnen echter de volgende code gebruiken om R te dwingen 7 bakken in het histogram te gebruiken:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Merk op dat het resultaat een histogram is met zeven op gelijke afstanden geplaatste vakken.

Aanvullende bronnen

In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in R uitvoert:

Hoe maak je een relatief frequentiehistogram in R
Hoe meerdere histogrammen in R te plotten

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert