Der einfachste weg, übersichtstabellen in r zu erstellen


Der einfachste Weg, Übersichtstabellen in R zu erstellen, ist die Verwendung der Funktionen „describe()“ und „describeBy()“ aus der Psych- Bibliothek.

 library (psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

Die folgenden Beispiele zeigen, wie Sie diese Funktionen in der Praxis nutzen können.

Beispiel 1: Erstellen Sie eine einfache Übersichtstabelle

Angenommen, wir haben den folgenden Datenrahmen in R:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1 to 15 7 1
2 A 22 8 1
3 B 29 6 2
4 B 41 6 3
5 C 30 7 5
6 C 11 9 7
7 C 19 13 5

Wir können die Funktion „beschreiben()“ verwenden, um eine Übersichtstabelle für jede Variable im Datenrahmen zu erstellen:

 library (psych)

#create summary table
describe(df)

         vars n mean sd median trimmed mad min max range skew kurtosis
team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90
points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41
rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38
steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73
           se
team* 0.34
points 3.87
rebounds 0.93
steals 0.87

So interpretieren Sie jeden Wert im Ergebnis:

  • vars : Spaltennummer
  • n : Anzahl gültiger Fälle
  • Durchschnitt : Der Durchschnittswert
  • Median : Der Medianwert
  • getrimmt : Der getrimmte Mittelwert (standardmäßig werden 10 % der Beobachtungen an jedem Ende entfernt)
  • verrückt : Die absolute mittlere Abweichung (vom Median)
  • min : Der Mindestwert
  • max : Der Maximalwert
  • Bereich : Der Wertebereich (max – min)
  • Schräge : Asymmetrie
  • Kurtosis : Abflachung
  • se : Der Standardfehler

Es ist wichtig zu beachten, dass jede Variable mit einem Sternchen (*) eine kategoriale oder logische Variable ist, die in eine numerische Variable mit Werten umgewandelt wurde, die die numerische Reihenfolge der Werte darstellen.

In unserem Beispiel wurde die Variable „Team“ in eine numerische Variable umgewandelt, daher sollten wir die entsprechende Zusammenfassungsstatistik nicht wörtlich interpretieren.

Beachten Sie außerdem, dass Sie das Argument fast=TRUE verwenden können, um nur die gängigsten zusammenfassenden Statistiken zu berechnen:

 #create smaller summary table
describe(df, fast= TRUE )

         vars n mean sd min max range se
team 1 7 NaN NA Inf -Inf -Inf NA
points 2 7 23.86 10.24 11 41 30 3.87
rebounds 3 7 8.00 2.45 6 13 7 0.93
steals 4 7 3.43 2.30 1 7 6 0.87

Wir können uns auch dafür entscheiden, zusammenfassende Statistiken nur für bestimmte Variablen im Datenrahmen zu berechnen:

 #create summary table for just 'points' and 'rebounds' columns
describe(df[, c(' points ', ' rebounds ')], fast= TRUE )

         vars n mean sd min max range se
points 1 7 23.86 10.24 11 41 30 3.87
rebounds 2 7 8.00 2.45 6 13 7 0.93

Beispiel 2: Erstellen Sie eine Übersichtstabelle, gruppiert nach bestimmten Variablen

Der folgende Code zeigt, wie Sie mit der Funktion discoverBy() eine Übersichtstabelle für den Datenrahmen erstellen, gruppiert nach der Variablen „team“:

 #create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast= TRUE )

 Descriptive statistics by group 
group: A
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 18.5 4.95 15 22 7 3.5
rebounds 3 2 7.5 0.71 7 8 1 0.5
steals 4 2 1.0 0.00 1 1 0 0.0
-------------------------------------------------- ---------- 
group: B
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 35.0 8.49 29 41 12 6.0
rebounds 3 2 6.0 0.00 6 6 0 0.0
steals 4 2 2.5 0.71 2 3 1 0.5
-------------------------------------------------- ---------- 
group: C
         vars n mean sd min max range se
team 1 3 NaN NA Inf -Inf -Inf NA
points 2 3 20.00 9.54 11 30 19 5.51
rebounds 3 3 9.67 3.06 7 13 6 1.76
steals 4 3 5.67 1.15 5 7 2 0.67

Die Ausgabe zeigt zusammenfassende Statistiken für jedes der drei Teams im Datenrahmen an.

Zusätzliche Ressourcen

So berechnen Sie die Zusammenfassung von fünf Zahlen in R
So berechnen Sie den Mittelwert pro Gruppe in R
So berechnen Sie die Summe nach Gruppe in R
So berechnen Sie die Varianz in R
So erstellen Sie eine Kovarianzmatrix in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert