Come calcolare le statistiche di riepilogo in r utilizzando dplyr

Di Benjamin anderson Luglio 12, 2023 Guida 0 commenti

È possibile utilizzare la seguente sintassi per calcolare le statistiche di riepilogo per tutte le variabili numeriche in un frame di dati in R utilizzando le funzioni nel pacchetto dplyr :

 library (dplyr)
library (tidyr)

df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

La funzione summarise() proviene dal pacchetto dplyr e viene utilizzata per calcolare le statistiche di riepilogo per le variabili.

La funzione pivot_longer() proviene dal pacchetto Tidyr e viene utilizzata per formattare l’output per renderlo più facile da leggere.

Questa particolare sintassi calcola le seguenti statistiche riassuntive per ciascuna variabile numerica in un frame di dati:

Valore minimo
Valore medio
Valore medio
Deviazione standard
25esimo percentile
75esimo percentile
Valore massimo

L’esempio seguente mostra come utilizzare questa funzione nella pratica.

Esempio: calcolare le statistiche di riepilogo in R utilizzando dplyr

Supponiamo di avere il seguente frame di dati in R che contiene informazioni su vari giocatori di basket:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(12, 15, 19, 14, 24, 25, 39, 34),
                 assists=c(6, 8, 8, 9, 12, 6, 8, 10),
                 rebounds=c(9, 9, 8, 10, 8, 4, 3, 3))

#view data frame
df

  team points assists rebounds
1 to 12 6 9
2 A 15 8 9
3 A 19 8 8
4 A 14 9 10
5 B 24 12 8
6 B 25 6 4
7 B 39 8 3
8 B 34 10 3

Possiamo utilizzare la seguente sintassi per calcolare le statistiche riassuntive per ciascuna variabile numerica nel frame di dati:

 library (dplyr)
library (tidyr)

#calculate summary statistics for each numeric variable in data frame
df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

# A tibble: 3 x 8
  variable min median mean stdev q25 q75 max
             
1 points 12 21.5 22.8 9.74 14.8 27.2 39
2 assists 6 8 8.38 2.00 7.5 9.25 12
3 rebounds 3 8 6.75 2.92 3.75 9 10

Dal risultato possiamo vedere:

Il valore minimo nella colonna dei punti è 12 .
Il valore medio nella colonna dei punti è 21,5 .
Il valore medio nella colonna dei punti è 22,8 .

E così via.

Nota : in questo esempio abbiamo utilizzato la funzione dplyr across() . Puoi trovare la documentazione completa per questa funzione qui .

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre funzioni comuni utilizzando dplyr:

Come riepilogare i dati mantenendo tutte le colonne utilizzando dplyr
Come riepilogare più colonne utilizzando dplyr
Come calcolare la deviazione standard utilizzando dplyr

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Esempio: calcolare le statistiche di riepilogo in R utilizzando dplyr

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento