So berechnen sie zusammenfassende statistiken in r mit dplyr

Von Dr. Benjamin Anderson Juli 12, 2023 Führung Keine Kommentare

Sie können die folgende Syntax verwenden, um zusammenfassende Statistiken für alle numerischen Variablen in einem Datenrahmen in R mithilfe von Funktionen im dplyr- Paket zu berechnen:

 library (dplyr)
library (tidyr)

df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

Die Funktion „summarise()“ stammt aus dem dplyr- Paket und wird zum Berechnen von Zusammenfassungsstatistiken für Variablen verwendet.

Die Funktion „pivot_longer()“ stammt aus dem Tidyr- Paket und wird verwendet, um die Ausgabe zu formatieren, um sie leichter lesbar zu machen.

Diese spezielle Syntax berechnet die folgenden zusammenfassenden Statistiken für jede numerische Variable in einem Datenrahmen:

Mindestwert
Medianwert
Durchschnittswert
Standardabweichung
25. Perzentil
75. Perzentil
Höchster Wert

Das folgende Beispiel zeigt, wie Sie diese Funktion in der Praxis nutzen können.

Beispiel: Berechnen Sie zusammenfassende Statistiken in R mit dplyr

Angenommen, wir haben den folgenden Datenrahmen in R, der Informationen über verschiedene Basketballspieler enthält:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(12, 15, 19, 14, 24, 25, 39, 34),
                 assists=c(6, 8, 8, 9, 12, 6, 8, 10),
                 rebounds=c(9, 9, 8, 10, 8, 4, 3, 3))

#view data frame
df

  team points assists rebounds
1 to 12 6 9
2 A 15 8 9
3 A 19 8 8
4 A 14 9 10
5 B 24 12 8
6 B 25 6 4
7 B 39 8 3
8 B 34 10 3

Wir können die folgende Syntax verwenden, um zusammenfassende Statistiken für jede numerische Variable im Datenrahmen zu berechnen:

 library (dplyr)
library (tidyr)

#calculate summary statistics for each numeric variable in data frame
df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

# A tibble: 3 x 8
  variable min median mean stdev q25 q75 max
             
1 points 12 21.5 22.8 9.74 14.8 27.2 39
2 assists 6 8 8.38 2.00 7.5 9.25 12
3 rebounds 3 8 6.75 2.92 3.75 9 10

Aus dem Ergebnis können wir sehen:

Der Mindestwert in der Punktespalte beträgt 12 .
Der Medianwert in der Punktespalte beträgt 21,5 .
Der Durchschnittswert in der Punktespalte beträgt 22,8 .

Und so weiter.

Hinweis : In diesem Beispiel haben wir die Funktion dplyr across() verwendet. Die vollständige Dokumentation zu dieser Funktion finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie mit dplyr weitere gängige Funktionen ausführen:

So fassen Sie Daten mit dplyr zusammen, behalten aber alle Spalten bei
So fassen Sie mehrere Spalten mit dplyr zusammen
So berechnen Sie die Standardabweichung mit dplyr

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel: Berechnen Sie zusammenfassende Statistiken in R mit dplyr

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen