Jak obliczyć podsumowanie pięciu liczb w r (z przykładami)


Podsumowanie pięciocyfrowe to sposób podsumowania zestawu danych przy użyciu następujących pięciu wartości:

  • Minimum
  • Pierwszy kwartyl
  • Mediana
  • Trzeci kwartyl
  • Maksymalny

Podsumowanie składające się z pięciu liczb jest przydatne, ponieważ zapewnia zwięzłe podsumowanie rozkładu danych w następujący sposób:

  • Mówi nam, gdzie jest wartość mediany , używając mediany.
  • Informuje nas o rozkładzie danych przy użyciu pierwszego i trzeciego kwartyla.
  • Informuje nas o zakresie danych, wykorzystując minimum i maksimum.

Najprostszym sposobem obliczenia pięciocyfrowego podsumowania zbioru danych w R jest użycie funkcji fivenum() z podstawy R:

 fivenum(data)

Poniższy przykład pokazuje, jak zastosować tę składnię w praktyce.

Przykład 1: Pięciocyfrowe podsumowanie wektora

Poniższy kod pokazuje, jak obliczyć pięciocyfrowe podsumowanie wektora numerycznego w R:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Z wyniku możemy zobaczyć:

  • Minimalna: 4
  • Pierwszy kwartyl: 7
  • Mediana: 12
  • Trzeci kwartyl: 15
  • Maksymalnie: 22

Możemy szybko zwizualizować pięciocyfrowe podsumowanie, tworząc wykres pudełkowy:

 boxplot(data)

[1] 4 7 12 15 22 

Oto jak zinterpretować wykres pudełkowy:

  • Linia na dole wykresu przedstawia wartość minimalną ( 4 ).
  • Linia na dole prostokąta reprezentuje pierwszy kwartyl ( 7 ).
  • Linia pośrodku prostokąta reprezentuje medianę ( 12 ).
  • Linia na górze prostokąta reprezentuje trzeci kwartyl ( 15 ).
  • Linia na górze wykresu przedstawia wartość maksymalną ( 22 ).

Przykład 2: Pięciocyfrowe podsumowanie kolumny w ramce danych

Poniższy kod pokazuje, jak obliczyć pięciocyfrowe podsumowanie określonej kolumny w ramce danych:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Przykład 3: Pięciocyfrowe podsumowanie wielu kolumn

Poniższy kod pokazuje, jak używać funkcji sapply() do jednoczesnego obliczania pięciocyfrowego podsumowania wielu kolumn w ramce danych:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Powiązane: Przewodnik po Apply(), lapply(), sapply() i tapply() w R

Dodatkowe zasoby

Jak utworzyć tabele podsumowujące w R
Jak znaleźć zasięg w R
Jak usunąć wartości odstające w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *