So berechnen sie eine zusammenfassung von fünf zahlen in r (mit beispielen)
Eine fünfstellige Zusammenfassung ist eine Möglichkeit, einen Datensatz anhand der folgenden fünf Werte zusammenzufassen:
- Minimum
- Das erste Quartil
- Der Median
- Das dritte Quartil
- Das Maximum
Die Zusammenfassung mit fünf Zahlen ist nützlich, da sie eine prägnante Zusammenfassung der Datenverteilung wie folgt liefert:
- Mithilfe des Medians erfahren wir, wo der Medianwert liegt.
- Es zeigt uns die Verteilung der Daten anhand des ersten und dritten Quartils.
- Es zeigt uns den Bereich der Daten anhand des Minimums und Maximums an.
Der einfachste Weg, eine fünfstellige Zusammenfassung eines Datensatzes in R zu berechnen, ist die Verwendung der Funktion fivenum() auf der R-Basis:
fivenum(data)
Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.
Beispiel 1: Fünfstellige Zusammenfassung eines Vektors
Der folgende Code zeigt, wie die fünfstellige Zusammenfassung eines numerischen Vektors in R berechnet wird:
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
Aus dem Ergebnis können wir sehen:
- Minimum: 4
- Das erste Quartil: 7
- Der Median: 12
- Das dritte Quartil: 15
- Maximal: 22
Wir können die fünfstellige Zusammenfassung schnell visualisieren, indem wir ein Boxplot erstellen:
boxplot(data) [1] 4 7 12 15 22
So interpretieren Sie den Boxplot:
- Die Linie am unteren Rand des Diagramms stellt den Mindestwert dar ( 4 ).
- Die Linie am unteren Rand des Kastens stellt das erste Quartil dar ( 7 ).
- Die Linie in der Mitte der Box stellt den Median dar ( 12 ).
- Die Linie oben in der Box stellt das dritte Quartil dar ( 15 ).
- Die Linie oben im Diagramm stellt den Maximalwert dar ( 22 ).
Beispiel 2: Fünfstellige Zusammenfassung einer Spalte in einem Datenrahmen
Der folgende Code zeigt, wie die fünfstellige Zusammenfassung einer bestimmten Spalte in einem Datenrahmen berechnet wird:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
Beispiel 3: Fünfstellige Zusammenfassung mehrerer Spalten
Der folgende Code zeigt, wie Sie mit der Funktion sapply() gleichzeitig die fünfstellige Zusammenfassung mehrerer Spalten in einem Datenrahmen berechnen:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
Verwandt: Eine Anleitung zu apply(), lapply(), sapply() und tapply() in R
Zusätzliche Ressourcen
So erstellen Sie Übersichtstabellen in R
So finden Sie den Bereich in R
So entfernen Sie Ausreißer in R