Come calcolare un riepilogo di cinque numeri in r (con esempi)


Un riepilogo a cinque cifre è un modo per riassumere un insieme di dati utilizzando i seguenti cinque valori:

  • Minimo
  • Il primo quartile
  • La mediana
  • Il terzo quartile
  • Il massimo

Il riepilogo a cinque numeri è utile perché fornisce un riepilogo conciso della distribuzione dei dati come segue:

  • Ci dice dove si trova il valore mediano , utilizzando la mediana.
  • Ci dice la distribuzione dei dati, utilizzando il primo e il terzo quartile.
  • Ci dice l’intervallo dei dati, utilizzando il minimo e il massimo.

Il modo più semplice per calcolare un riepilogo di cinque numeri di un set di dati in R è utilizzare la funzione fivenum() dalla base R:

 fivenum(data)

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio 1: riepilogo di cinque numeri di un vettore

Il codice seguente mostra come calcolare il riepilogo di cinque numeri di un vettore numerico in R:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Dal risultato possiamo vedere:

  • Minimo: 4
  • Il primo quartile: 7
  • La media: 12
  • Il terzo quartile: 15
  • Massimo: 22

Possiamo visualizzare rapidamente il riepilogo di cinque cifre creando un boxplot:

 boxplot(data)

[1] 4 7 12 15 22 

Ecco come interpretare il boxplot:

  • La linea nella parte inferiore del grafico rappresenta il valore minimo ( 4 ).
  • La linea nella parte inferiore della casella rappresenta il primo quartile ( 7 ).
  • La linea al centro del riquadro rappresenta la mediana ( 12 ).
  • La linea nella parte superiore del riquadro rappresenta il terzo quartile ( 15 ).
  • La linea nella parte superiore del grafico rappresenta il valore massimo ( 22 ).

Esempio 2: riepilogo di cinque cifre di una colonna in un frame di dati

Il codice seguente mostra come calcolare il riepilogo di cinque cifre di una colonna specifica in un frame di dati:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Esempio 3: riepilogo di cinque cifre di più colonne

Il codice seguente mostra come utilizzare la funzione sapply() per calcolare simultaneamente il riepilogo di cinque cifre di più colonne in un frame di dati:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Correlati: una guida per apply(), lapply(), sapply() e tapply() in R

Risorse addizionali

Come creare tabelle di riepilogo in R
Come trovare l’intervallo in R
Come rimuovere gli outlier in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *