Il modo più semplice per creare tabelle di riepilogo in r


Il modo più semplice per creare tabelle di riepilogo in R è utilizzare le funzioni descrive() e descriveBy() dalla libreria psych .

 library (psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

I seguenti esempi mostrano come utilizzare queste funzioni nella pratica.

Esempio 1: creare una tabella di riepilogo di base

Supponiamo di avere il seguente frame di dati in R:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1 to 15 7 1
2 A 22 8 1
3 B 29 6 2
4 B 41 6 3
5 C 30 7 5
6 C 11 9 7
7 C 19 13 5

Possiamo usare la funzione description() per creare una tabella riepilogativa per ogni variabile nel frame di dati:

 library (psych)

#create summary table
describe(df)

         vars n mean sd median trimmed mad min max range skew kurtosis
team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90
points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41
rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38
steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73
           se
team* 0.34
points 3.87
rebounds 0.93
steals 0.87

Ecco come interpretare ciascun valore nel risultato:

  • vars : numero di colonna
  • n : numero di casi validi
  • media : il valore medio
  • mediana : il valore mediano
  • troncata : la media troncata (per impostazione predefinita, il 10% delle osservazioni viene rimosso a ciascuna estremità)
  • mad : la deviazione mediana assoluta (dalla mediana)
  • min : il valore minimo
  • max : il valore massimo
  • range : L’intervallo di valori (max – min)
  • inclinazione : asimmetria
  • curtosi : appiattimento
  • se : l’errore standard

È importante notare che qualsiasi variabile con un asterisco (*) è una variabile categoriale o logica che è stata convertita in una variabile numerica con valori che rappresentano l’ordine numerico dei valori.

Nel nostro esempio, la variabile “squadra” è stata convertita in una variabile numerica, quindi non dobbiamo interpretare alla lettera le statistiche riassuntive corrispondenti.

Tieni inoltre presente che puoi utilizzare l’argomento fast=TRUE per calcolare solo le statistiche riassuntive più comuni:

 #create smaller summary table
describe(df, fast= TRUE )

         vars n mean sd min max range se
team 1 7 NaN NA Inf -Inf -Inf NA
points 2 7 23.86 10.24 11 41 30 3.87
rebounds 3 7 8.00 2.45 6 13 7 0.93
steals 4 7 3.43 2.30 1 7 6 0.87

Possiamo anche scegliere di calcolare solo le statistiche riassuntive per determinate variabili nel data frame:

 #create summary table for just 'points' and 'rebounds' columns
describe(df[, c(' points ', ' rebounds ')], fast= TRUE )

         vars n mean sd min max range se
points 1 7 23.86 10.24 11 41 30 3.87
rebounds 2 7 8.00 2.45 6 13 7 0.93

Esempio 2: creare una tabella riassuntiva, raggruppata per variabile specifica

Il codice seguente mostra come utilizzare la funzione descriptionBy() per creare una tabella di riepilogo per il frame di dati, raggruppata in base alla variabile “team”:

 #create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast= TRUE )

 Descriptive statistics by group 
group: A
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 18.5 4.95 15 22 7 3.5
rebounds 3 2 7.5 0.71 7 8 1 0.5
steals 4 2 1.0 0.00 1 1 0 0.0
-------------------------------------------------- ---------- 
group: B
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 35.0 8.49 29 41 12 6.0
rebounds 3 2 6.0 0.00 6 6 0 0.0
steals 4 2 2.5 0.71 2 3 1 0.5
-------------------------------------------------- ---------- 
group: C
         vars n mean sd min max range se
team 1 3 NaN NA Inf -Inf -Inf NA
points 2 3 20.00 9.54 11 30 19 5.51
rebounds 3 3 9.67 3.06 7 13 6 1.76
steals 4 3 5.67 1.15 5 7 2 0.67

L’output mostra le statistiche riepilogative per ciascuna delle tre squadre nel frame dati.

Risorse addizionali

Come calcolare la sintesi di cinque numeri in R
Come calcolare la media per gruppo in R
Come calcolare la somma per gruppo in R
Come calcolare la varianza in R
Come creare una matrice di covarianza in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *