Come calcolare un riepilogo di cinque numeri in r (con esempi)
Un riepilogo a cinque cifre è un modo per riassumere un insieme di dati utilizzando i seguenti cinque valori:
- Minimo
- Il primo quartile
- La mediana
- Il terzo quartile
- Il massimo
Il riepilogo a cinque numeri è utile perché fornisce un riepilogo conciso della distribuzione dei dati come segue:
- Ci dice dove si trova il valore mediano , utilizzando la mediana.
- Ci dice la distribuzione dei dati, utilizzando il primo e il terzo quartile.
- Ci dice l’intervallo dei dati, utilizzando il minimo e il massimo.
Il modo più semplice per calcolare un riepilogo di cinque numeri di un set di dati in R è utilizzare la funzione fivenum() dalla base R:
fivenum(data)
L’esempio seguente mostra come utilizzare questa sintassi nella pratica.
Esempio 1: riepilogo di cinque numeri di un vettore
Il codice seguente mostra come calcolare il riepilogo di cinque numeri di un vettore numerico in R:
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
Dal risultato possiamo vedere:
- Minimo: 4
- Il primo quartile: 7
- La media: 12
- Il terzo quartile: 15
- Massimo: 22
Possiamo visualizzare rapidamente il riepilogo di cinque cifre creando un boxplot:
boxplot(data) [1] 4 7 12 15 22
Ecco come interpretare il boxplot:
- La linea nella parte inferiore del grafico rappresenta il valore minimo ( 4 ).
- La linea nella parte inferiore della casella rappresenta il primo quartile ( 7 ).
- La linea al centro del riquadro rappresenta la mediana ( 12 ).
- La linea nella parte superiore del riquadro rappresenta il terzo quartile ( 15 ).
- La linea nella parte superiore del grafico rappresenta il valore massimo ( 22 ).
Esempio 2: riepilogo di cinque cifre di una colonna in un frame di dati
Il codice seguente mostra come calcolare il riepilogo di cinque cifre di una colonna specifica in un frame di dati:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
Esempio 3: riepilogo di cinque cifre di più colonne
Il codice seguente mostra come utilizzare la funzione sapply() per calcolare simultaneamente il riepilogo di cinque cifre di più colonne in un frame di dati:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
Correlati: una guida per apply(), lapply(), sapply() e tapply() in R
Risorse addizionali
Come creare tabelle di riepilogo in R
Come trovare l’intervallo in R
Come rimuovere gli outlier in R