Der einfachste weg, übersichtstabellen in r zu erstellen
Der einfachste Weg, Übersichtstabellen in R zu erstellen, ist die Verwendung der Funktionen „describe()“ und „describeBy()“ aus der Psych- Bibliothek.
library (psych) #create summary table describe(df) #create summary table, grouped by a specific variable describeBy(df, group=df$var_name)
Die folgenden Beispiele zeigen, wie Sie diese Funktionen in der Praxis nutzen können.
Beispiel 1: Erstellen Sie eine einfache Übersichtstabelle
Angenommen, wir haben den folgenden Datenrahmen in R:
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'), points=c(15, 22, 29, 41, 30, 11, 19), rebounds=c(7, 8, 6, 6, 7, 9, 13), steals=c(1, 1, 2, 3, 5, 7, 5)) #view data frame df team points rebounds steals 1 to 15 7 1 2 A 22 8 1 3 B 29 6 2 4 B 41 6 3 5 C 30 7 5 6 C 11 9 7 7 C 19 13 5
Wir können die Funktion „beschreiben()“ verwenden, um eine Übersichtstabelle für jede Variable im Datenrahmen zu erstellen:
library (psych) #create summary table describe(df) vars n mean sd median trimmed mad min max range skew kurtosis team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90 points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41 rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38 steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73 se team* 0.34 points 3.87 rebounds 0.93 steals 0.87
So interpretieren Sie jeden Wert im Ergebnis:
- vars : Spaltennummer
- n : Anzahl gültiger Fälle
- Durchschnitt : Der Durchschnittswert
- Median : Der Medianwert
- getrimmt : Der getrimmte Mittelwert (standardmäßig werden 10 % der Beobachtungen an jedem Ende entfernt)
- verrückt : Die absolute mittlere Abweichung (vom Median)
- min : Der Mindestwert
- max : Der Maximalwert
- Bereich : Der Wertebereich (max – min)
- Schräge : Asymmetrie
- Kurtosis : Abflachung
- se : Der Standardfehler
Es ist wichtig zu beachten, dass jede Variable mit einem Sternchen (*) eine kategoriale oder logische Variable ist, die in eine numerische Variable mit Werten umgewandelt wurde, die die numerische Reihenfolge der Werte darstellen.
In unserem Beispiel wurde die Variable „Team“ in eine numerische Variable umgewandelt, daher sollten wir die entsprechende Zusammenfassungsstatistik nicht wörtlich interpretieren.
Beachten Sie außerdem, dass Sie das Argument fast=TRUE verwenden können, um nur die gängigsten zusammenfassenden Statistiken zu berechnen:
#create smaller summary table describe(df, fast= TRUE ) vars n mean sd min max range se team 1 7 NaN NA Inf -Inf -Inf NA points 2 7 23.86 10.24 11 41 30 3.87 rebounds 3 7 8.00 2.45 6 13 7 0.93 steals 4 7 3.43 2.30 1 7 6 0.87
Wir können uns auch dafür entscheiden, zusammenfassende Statistiken nur für bestimmte Variablen im Datenrahmen zu berechnen:
#create summary table for just 'points' and 'rebounds' columns describe(df[, c(' points ', ' rebounds ')], fast= TRUE ) vars n mean sd min max range se points 1 7 23.86 10.24 11 41 30 3.87 rebounds 2 7 8.00 2.45 6 13 7 0.93
Beispiel 2: Erstellen Sie eine Übersichtstabelle, gruppiert nach bestimmten Variablen
Der folgende Code zeigt, wie Sie mit der Funktion discoverBy() eine Übersichtstabelle für den Datenrahmen erstellen, gruppiert nach der Variablen „team“:
#create summary table, grouped by 'team' variable describeBy(df, group=df$team, fast= TRUE ) Descriptive statistics by group group: A vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 18.5 4.95 15 22 7 3.5 rebounds 3 2 7.5 0.71 7 8 1 0.5 steals 4 2 1.0 0.00 1 1 0 0.0 -------------------------------------------------- ---------- group: B vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 35.0 8.49 29 41 12 6.0 rebounds 3 2 6.0 0.00 6 6 0 0.0 steals 4 2 2.5 0.71 2 3 1 0.5 -------------------------------------------------- ---------- group: C vars n mean sd min max range se team 1 3 NaN NA Inf -Inf -Inf NA points 2 3 20.00 9.54 11 30 19 5.51 rebounds 3 3 9.67 3.06 7 13 6 1.76 steals 4 3 5.67 1.15 5 7 2 0.67
Die Ausgabe zeigt zusammenfassende Statistiken für jedes der drei Teams im Datenrahmen an.
Zusätzliche Ressourcen
So berechnen Sie die Zusammenfassung von fünf Zahlen in R
So berechnen Sie den Mittelwert pro Gruppe in R
So berechnen Sie die Summe nach Gruppe in R
So berechnen Sie die Varianz in R
So erstellen Sie eine Kovarianzmatrix in R