Il modo più semplice per creare tabelle di riepilogo in r
Il modo più semplice per creare tabelle di riepilogo in R è utilizzare le funzioni descrive() e descriveBy() dalla libreria psych .
library (psych) #create summary table describe(df) #create summary table, grouped by a specific variable describeBy(df, group=df$var_name)
I seguenti esempi mostrano come utilizzare queste funzioni nella pratica.
Esempio 1: creare una tabella di riepilogo di base
Supponiamo di avere il seguente frame di dati in R:
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'), points=c(15, 22, 29, 41, 30, 11, 19), rebounds=c(7, 8, 6, 6, 7, 9, 13), steals=c(1, 1, 2, 3, 5, 7, 5)) #view data frame df team points rebounds steals 1 to 15 7 1 2 A 22 8 1 3 B 29 6 2 4 B 41 6 3 5 C 30 7 5 6 C 11 9 7 7 C 19 13 5
Possiamo usare la funzione description() per creare una tabella riepilogativa per ogni variabile nel frame di dati:
library (psych) #create summary table describe(df) vars n mean sd median trimmed mad min max range skew kurtosis team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90 points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41 rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38 steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73 se team* 0.34 points 3.87 rebounds 0.93 steals 0.87
Ecco come interpretare ciascun valore nel risultato:
- vars : numero di colonna
- n : numero di casi validi
- media : il valore medio
- mediana : il valore mediano
- troncata : la media troncata (per impostazione predefinita, il 10% delle osservazioni viene rimosso a ciascuna estremità)
- mad : la deviazione mediana assoluta (dalla mediana)
- min : il valore minimo
- max : il valore massimo
- range : L’intervallo di valori (max – min)
- inclinazione : asimmetria
- curtosi : appiattimento
- se : l’errore standard
È importante notare che qualsiasi variabile con un asterisco (*) è una variabile categoriale o logica che è stata convertita in una variabile numerica con valori che rappresentano l’ordine numerico dei valori.
Nel nostro esempio, la variabile “squadra” è stata convertita in una variabile numerica, quindi non dobbiamo interpretare alla lettera le statistiche riassuntive corrispondenti.
Tieni inoltre presente che puoi utilizzare l’argomento fast=TRUE per calcolare solo le statistiche riassuntive più comuni:
#create smaller summary table describe(df, fast= TRUE ) vars n mean sd min max range se team 1 7 NaN NA Inf -Inf -Inf NA points 2 7 23.86 10.24 11 41 30 3.87 rebounds 3 7 8.00 2.45 6 13 7 0.93 steals 4 7 3.43 2.30 1 7 6 0.87
Possiamo anche scegliere di calcolare solo le statistiche riassuntive per determinate variabili nel data frame:
#create summary table for just 'points' and 'rebounds' columns describe(df[, c(' points ', ' rebounds ')], fast= TRUE ) vars n mean sd min max range se points 1 7 23.86 10.24 11 41 30 3.87 rebounds 2 7 8.00 2.45 6 13 7 0.93
Esempio 2: creare una tabella riassuntiva, raggruppata per variabile specifica
Il codice seguente mostra come utilizzare la funzione descriptionBy() per creare una tabella di riepilogo per il frame di dati, raggruppata in base alla variabile “team”:
#create summary table, grouped by 'team' variable describeBy(df, group=df$team, fast= TRUE ) Descriptive statistics by group group: A vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 18.5 4.95 15 22 7 3.5 rebounds 3 2 7.5 0.71 7 8 1 0.5 steals 4 2 1.0 0.00 1 1 0 0.0 -------------------------------------------------- ---------- group: B vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 35.0 8.49 29 41 12 6.0 rebounds 3 2 6.0 0.00 6 6 0 0.0 steals 4 2 2.5 0.71 2 3 1 0.5 -------------------------------------------------- ---------- group: C vars n mean sd min max range se team 1 3 NaN NA Inf -Inf -Inf NA points 2 3 20.00 9.54 11 30 19 5.51 rebounds 3 3 9.67 3.06 7 13 6 1.76 steals 4 3 5.67 1.15 5 7 2 0.67
L’output mostra le statistiche riepilogative per ciascuna delle tre squadre nel frame dati.
Risorse addizionali
Come calcolare la sintesi di cinque numeri in R
Come calcolare la media per gruppo in R
Come calcolare la somma per gruppo in R
Come calcolare la varianza in R
Come creare una matrice di covarianza in R