So berechnen sie eine zusammenfassung von fünf zahlen in r (mit beispielen)


Eine fünfstellige Zusammenfassung ist eine Möglichkeit, einen Datensatz anhand der folgenden fünf Werte zusammenzufassen:

  • Minimum
  • Das erste Quartil
  • Der Median
  • Das dritte Quartil
  • Das Maximum

Die Zusammenfassung mit fünf Zahlen ist nützlich, da sie eine prägnante Zusammenfassung der Datenverteilung wie folgt liefert:

  • Mithilfe des Medians erfahren wir, wo der Medianwert liegt.
  • Es zeigt uns die Verteilung der Daten anhand des ersten und dritten Quartils.
  • Es zeigt uns den Bereich der Daten anhand des Minimums und Maximums an.

Der einfachste Weg, eine fünfstellige Zusammenfassung eines Datensatzes in R zu berechnen, ist die Verwendung der Funktion fivenum() auf der R-Basis:

 fivenum(data)

Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.

Beispiel 1: Fünfstellige Zusammenfassung eines Vektors

Der folgende Code zeigt, wie die fünfstellige Zusammenfassung eines numerischen Vektors in R berechnet wird:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Aus dem Ergebnis können wir sehen:

  • Minimum: 4
  • Das erste Quartil: 7
  • Der Median: 12
  • Das dritte Quartil: 15
  • Maximal: 22

Wir können die fünfstellige Zusammenfassung schnell visualisieren, indem wir ein Boxplot erstellen:

 boxplot(data)

[1] 4 7 12 15 22 

So interpretieren Sie den Boxplot:

  • Die Linie am unteren Rand des Diagramms stellt den Mindestwert dar ( 4 ).
  • Die Linie am unteren Rand des Kastens stellt das erste Quartil dar ( 7 ).
  • Die Linie in der Mitte der Box stellt den Median dar ( 12 ).
  • Die Linie oben in der Box stellt das dritte Quartil dar ( 15 ).
  • Die Linie oben im Diagramm stellt den Maximalwert dar ( 22 ).

Beispiel 2: Fünfstellige Zusammenfassung einer Spalte in einem Datenrahmen

Der folgende Code zeigt, wie die fünfstellige Zusammenfassung einer bestimmten Spalte in einem Datenrahmen berechnet wird:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Beispiel 3: Fünfstellige Zusammenfassung mehrerer Spalten

Der folgende Code zeigt, wie Sie mit der Funktion sapply() gleichzeitig die fünfstellige Zusammenfassung mehrerer Spalten in einem Datenrahmen berechnen:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Verwandt: Eine Anleitung zu apply(), lapply(), sapply() und tapply() in R

Zusätzliche Ressourcen

So erstellen Sie Übersichtstabellen in R
So finden Sie den Bereich in R
So entfernen Sie Ausreißer in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert