So berechnen sie zusammenfassende statistiken nach gruppen in r

Von Dr. Benjamin Anderson Juli 23, 2023 Führung Keine Kommentare

Es gibt zwei grundlegende Möglichkeiten, Gruppenzusammenfassungsstatistiken in R zu berechnen:

Methode 1: Verwenden Sie tapply() von Base R

 tapply(df$value_col, df$group_col, summary)

Methode 2: Verwenden Sie group_by() aus dem dplyr-Paket

 library (dplyr)

df %>%
  group_by (group_col) %>% 
  summarize (min = min(value_col),
            q1 = quantile(value_col, 0.25 ),
            median = median(value_col),
            mean = mean(value_col),
            q3 = quantile(value_col, 0.75 ),
            max = max(value_col))

Die folgenden Beispiele zeigen, wie die einzelnen Methoden in der Praxis angewendet werden.

Methode 1: Verwenden Sie tapply() von Base R

Der folgende Code zeigt, wie die Funktion tapply() in R verwendet wird, um zusammenfassende Statistiken nach Gruppen zu berechnen:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(99, 68, 86, 88, 95, 74, 78, 93),
                 assists=c(22, 28, 31, 35, 34, 45, 28, 31),
                 rebounds=c(30, 28, 24, 24, 30, 36, 30, 29))

#calculate summary statistics of 'points' grouped by 'team'
tapply(df$points, df$team, summary)

$A
   Min. 1st Qu. Median Mean 3rd Qu. Max. 
  68.00 81.50 87.00 85.25 90.75 99.00 

$B
   Min. 1st Qu. Median Mean 3rd Qu. Max. 
   74.0 77.0 85.5 85.0 93.5 95.0

Methode 2: Verwenden Sie group_by() aus dem dplyr-Paket

Der folgende Code zeigt, wie die Funktionen group_by() und summary() im dplyr- Paket verwendet werden, um zusammenfassende Statistiken nach Gruppen zu berechnen:

 library (dplyr)

#create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(99, 68, 86, 88, 95, 74, 78, 93),
                 assists=c(22, 28, 31, 35, 34, 45, 28, 31),
                 rebounds=c(30, 28, 24, 24, 30, 36, 30, 29))

#calculate summary statistics of 'points' grouped by 'team'
df %>%
  group_by (team) %>% 
  summarize (min = min(points),
            q1 = quantile(points, 0.25 ),
            median = median(points),
            mean = mean(points),
            q3 = quantile(points, 0.75 ),
            max = max(points))

# A tibble: 2 x 7
  team min q1 median mean q3 max
         
1 A 68 81.5 87 85.2 90.8 99
2 B 74 77 85.5 85 93.5 95

Beachten Sie, dass beide Methoden genau die gleichen Ergebnisse liefern.

Es ist erwähnenswert, dass der dplyr-Ansatz bei größeren Datenrahmen wahrscheinlich schneller ist, bei kleineren Datenrahmen jedoch beide Methoden ähnlich funktionieren.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere gängige Gruppierungsfunktionen in R ausführen:

So erstellen Sie eine Häufigkeitstabelle nach Gruppen in R
So berechnen Sie die Summe nach Gruppe in R
So berechnen Sie den Mittelwert pro Gruppe in R
So berechnen Sie die Summe nach Gruppe in R

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Methode 1: Verwenden Sie tapply() von Base R

Methode 2: Verwenden Sie group_by() aus dem dplyr-Paket

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen