Jak obliczyć podsumowanie pięciu liczb w r (z przykładami)
Podsumowanie pięciocyfrowe to sposób podsumowania zestawu danych przy użyciu następujących pięciu wartości:
- Minimum
- Pierwszy kwartyl
- Mediana
- Trzeci kwartyl
- Maksymalny
Podsumowanie składające się z pięciu liczb jest przydatne, ponieważ zapewnia zwięzłe podsumowanie rozkładu danych w następujący sposób:
- Mówi nam, gdzie jest wartość mediany , używając mediany.
- Informuje nas o rozkładzie danych przy użyciu pierwszego i trzeciego kwartyla.
- Informuje nas o zakresie danych, wykorzystując minimum i maksimum.
Najprostszym sposobem obliczenia pięciocyfrowego podsumowania zbioru danych w R jest użycie funkcji fivenum() z podstawy R:
fivenum(data)
Poniższy przykład pokazuje, jak zastosować tę składnię w praktyce.
Przykład 1: Pięciocyfrowe podsumowanie wektora
Poniższy kod pokazuje, jak obliczyć pięciocyfrowe podsumowanie wektora numerycznego w R:
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
Z wyniku możemy zobaczyć:
- Minimalna: 4
- Pierwszy kwartyl: 7
- Mediana: 12
- Trzeci kwartyl: 15
- Maksymalnie: 22
Możemy szybko zwizualizować pięciocyfrowe podsumowanie, tworząc wykres pudełkowy:
boxplot(data) [1] 4 7 12 15 22
Oto jak zinterpretować wykres pudełkowy:
- Linia na dole wykresu przedstawia wartość minimalną ( 4 ).
- Linia na dole prostokąta reprezentuje pierwszy kwartyl ( 7 ).
- Linia pośrodku prostokąta reprezentuje medianę ( 12 ).
- Linia na górze prostokąta reprezentuje trzeci kwartyl ( 15 ).
- Linia na górze wykresu przedstawia wartość maksymalną ( 22 ).
Przykład 2: Pięciocyfrowe podsumowanie kolumny w ramce danych
Poniższy kod pokazuje, jak obliczyć pięciocyfrowe podsumowanie określonej kolumny w ramce danych:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
Przykład 3: Pięciocyfrowe podsumowanie wielu kolumn
Poniższy kod pokazuje, jak używać funkcji sapply() do jednoczesnego obliczania pięciocyfrowego podsumowania wielu kolumn w ramce danych:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
Powiązane: Przewodnik po Apply(), lapply(), sapply() i tapply() w R
Dodatkowe zasoby
Jak utworzyć tabele podsumowujące w R
Jak znaleźć zasięg w R
Jak usunąć wartości odstające w R