So geben sie histogrammunterbrechungen in r an (mit beispielen)
Standardmäßig verwendet die Funktion hist() in R die Sturges-Regel , um die Anzahl der in einem Histogramm zu verwendenden Bins zu bestimmen.
Die Sturges-Regel verwendet die folgende Formel, um die optimale Anzahl von Gruppen für die Verwendung in einem Histogramm zu bestimmen:
Optimale Bins = ⌈log 2 n + 1⌉
Gold:
- n: die Gesamtzahl der Beobachtungen im Datensatz.
- ⌈ ⌉: Symbole, die „Obergrenze“ bedeuten, also das Runden des Ergebnisses auf die nächste ganze Zahl.
Wenn ein Datensatz beispielsweise 31 Beobachtungen enthält, verwendet die Sturge-Regel die folgende Formel, um die optimale Anzahl von Gruppen für die Verwendung in einem Histogramm zu bestimmen:
Optimale Bins = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .
Gemäß der Regel von Sturges sollten wir 6 Kästchen im Histogramm verwenden, um diesen Datensatz zu visualisieren.
Wenn Sie die Funktion hist() in R verwenden, wird die Sturges-Regel verwendet, um automatisch die Anzahl der im Histogramm anzuzeigenden Bins auszuwählen.
hist(data)
Selbst wenn Sie das Argument breaks verwenden, um eine andere Anzahl zu verwendender Bins anzugeben, verwendet R es nur als „Vorschlag“ für die Anzahl der zu verwendenden Bins.
hist(data, breaks= 7 )
Sie können jedoch den folgenden Code verwenden, um R zu zwingen, eine bestimmte Anzahl von Feldern in einem Histogramm zu verwenden:
#create histogram with 7 bins hist(data, breaks = seq(min(data), max(data), length. out = 8 ))
Hinweis : Sie müssen für length.out eine Länge von n+1 verwenden, wobei n die Anzahl der gewünschten Bins ist.
Das folgende Beispiel zeigt, wie dieser Code in der Praxis verwendet wird.
Beispiel: Angeben von Histogrammunterbrechungen in R
Angenommen, wir haben den folgenden Datensatz in R mit 16 Werten:
#create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)
Wenn wir die Funktion hist() verwenden, erstellt R das folgende Histogramm mit 5 Bins:
#create histogram
hist(data)
Hinweis : R verwendete die Sturges-Regel, um zu bestimmen, dass 5 Gruppen die optimale Anzahl von Gruppen für die Visualisierung eines Datensatzes mit 16 Beobachtungen waren.
Wenn wir versuchen, das Argument breaks zu verwenden, um 7 Gruppen anzugeben, die im Histogramm verwendet werden sollen, nimmt R dies nur als „Vorschlag“ und entscheidet sich stattdessen für die Verwendung von 10 Gruppen:
#attempt to create histogram with 7 bins
hist(data, breaks= 7 )
Wir können jedoch den folgenden Code verwenden, um R zu zwingen, 7 Bins im Histogramm zu verwenden:
#create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))
Beachten Sie, dass das Ergebnis ein Histogramm mit 7 gleichmäßig verteilten Kästchen ist.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in R ausgeführt werden:
So erstellen Sie ein relatives Häufigkeitshistogramm in R
So zeichnen Sie mehrere Histogramme in R