Як обчислити зведення п’яти чисел у r (з прикладами)


П’ятизначний підсумок – це спосіб підсумовування набору даних за допомогою таких п’яти значень:

  • мінімум
  • Перший квартиль
  • Медіана
  • Третій квартиль
  • Максимум

Підсумок із п’яти чисел є корисним, оскільки він надає стислий підсумок розподілу даних таким чином:

  • Він повідомляє нам, де знаходиться середнє значення , використовуючи медіану.
  • Він повідомляє нам про розподіл даних, використовуючи перший і третій квартилі.
  • Він повідомляє нам діапазон даних, використовуючи мінімум і максимум.

Найпростіший спосіб обчислити п’ятизначний підсумок набору даних у R – це використати функцію fivenum() із бази R:

 fivenum(data)

У наступному прикладі показано, як використовувати цей синтаксис на практиці.

Приклад 1: п’ятизначний підсумок вектора

У наведеному нижче коді показано, як обчислити підсумок із п’яти чисел числового вектора в R:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

З результату ми бачимо:

  • Мінімум: 4
  • Перший квартиль: 7
  • Медіана: 12
  • Третій квартиль: 15
  • Максимум: 22

Ми можемо швидко візуалізувати п’ятизначне резюме, створивши коробковий графік:

 boxplot(data)

[1] 4 7 12 15 22 

Ось як інтерпретувати коробковий графік:

  • Лінія внизу графіка представляє мінімальне значення ( 4 ).
  • Рядок у нижній частині рамки представляє перший квартиль ( 7 ).
  • Лінія посередині рамки представляє медіану ( 12 ).
  • Лінія у верхній частині рамки представляє третій квартиль ( 15 ).
  • Лінія у верхній частині графіка представляє максимальне значення ( 22 ).

Приклад 2: п’ятизначний підсумок стовпця у кадрі даних

У наступному коді показано, як обчислити п’ятизначний підсумок певного стовпця у кадрі даних:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Приклад 3: п’ятизначний підсумок кількох стовпців

У наступному коді показано, як використовувати функцію sapply() для одночасного обчислення п’ятизначного підсумку кількох стовпців у кадрі даних:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Пов’язане: посібник із apply(), lapply(), sapply() і tapply() у R

Додаткові ресурси

Як створити зведені таблиці в R
Як знайти діапазон у R
Як видалити викиди в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *