So geben sie histogrammunterbrechungen in r an (mit beispielen)


Standardmäßig verwendet die Funktion hist() in R die Sturges-Regel , um die Anzahl der in einem Histogramm zu verwendenden Bins zu bestimmen.

Die Sturges-Regel verwendet die folgende Formel, um die optimale Anzahl von Gruppen für die Verwendung in einem Histogramm zu bestimmen:

Optimale Bins = ⌈log 2 n + 1⌉

Gold:

  • n: die Gesamtzahl der Beobachtungen im Datensatz.
  • ⌈ ⌉: Symbole, die „Obergrenze“ bedeuten, also das Runden des Ergebnisses auf die nächste ganze Zahl.

Wenn ein Datensatz beispielsweise 31 Beobachtungen enthält, verwendet die Sturge-Regel die folgende Formel, um die optimale Anzahl von Gruppen für die Verwendung in einem Histogramm zu bestimmen:

Optimale Bins = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Gemäß der Regel von Sturges sollten wir 6 Kästchen im Histogramm verwenden, um diesen Datensatz zu visualisieren.

Wenn Sie die Funktion hist() in R verwenden, wird die Sturges-Regel verwendet, um automatisch die Anzahl der im Histogramm anzuzeigenden Bins auszuwählen.

 hist(data)

Selbst wenn Sie das Argument breaks verwenden, um eine andere Anzahl zu verwendender Bins anzugeben, verwendet R es nur als „Vorschlag“ für die Anzahl der zu verwendenden Bins.

 hist(data, breaks= 7 )

Sie können jedoch den folgenden Code verwenden, um R zu zwingen, eine bestimmte Anzahl von Feldern in einem Histogramm zu verwenden:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Hinweis : Sie müssen für length.out eine Länge von n+1 verwenden, wobei n die Anzahl der gewünschten Bins ist.

Das folgende Beispiel zeigt, wie dieser Code in der Praxis verwendet wird.

Beispiel: Angeben von Histogrammunterbrechungen in R

Angenommen, wir haben den folgenden Datensatz in R mit 16 Werten:

 #create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

Wenn wir die Funktion hist() verwenden, erstellt R das folgende Histogramm mit 5 Bins:

 #create histogram
hist(data)

Hinweis : R verwendete die Sturges-Regel, um zu bestimmen, dass 5 Gruppen die optimale Anzahl von Gruppen für die Visualisierung eines Datensatzes mit 16 Beobachtungen waren.

Wenn wir versuchen, das Argument breaks zu verwenden, um 7 Gruppen anzugeben, die im Histogramm verwendet werden sollen, nimmt R dies nur als „Vorschlag“ und entscheidet sich stattdessen für die Verwendung von 10 Gruppen:

 #attempt to create histogram with 7 bins
hist(data, breaks= 7 ) 

Wir können jedoch den folgenden Code verwenden, um R zu zwingen, 7 Bins im Histogramm zu verwenden:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Beachten Sie, dass das Ergebnis ein Histogramm mit 7 gleichmäßig verteilten Kästchen ist.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in R ausgeführt werden:

So erstellen Sie ein relatives Häufigkeitshistogramm in R
So zeichnen Sie mehrere Histogramme in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert