Як обчислити зведення п’яти чисел у r (з прикладами)
П’ятизначний підсумок – це спосіб підсумовування набору даних за допомогою таких п’яти значень:
- мінімум
- Перший квартиль
- Медіана
- Третій квартиль
- Максимум
Підсумок із п’яти чисел є корисним, оскільки він надає стислий підсумок розподілу даних таким чином:
- Він повідомляє нам, де знаходиться середнє значення , використовуючи медіану.
- Він повідомляє нам про розподіл даних, використовуючи перший і третій квартилі.
- Він повідомляє нам діапазон даних, використовуючи мінімум і максимум.
Найпростіший спосіб обчислити п’ятизначний підсумок набору даних у R – це використати функцію fivenum() із бази R:
fivenum(data)
У наступному прикладі показано, як використовувати цей синтаксис на практиці.
Приклад 1: п’ятизначний підсумок вектора
У наведеному нижче коді показано, як обчислити підсумок із п’яти чисел числового вектора в R:
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
З результату ми бачимо:
- Мінімум: 4
- Перший квартиль: 7
- Медіана: 12
- Третій квартиль: 15
- Максимум: 22
Ми можемо швидко візуалізувати п’ятизначне резюме, створивши коробковий графік:
boxplot(data) [1] 4 7 12 15 22
Ось як інтерпретувати коробковий графік:
- Лінія внизу графіка представляє мінімальне значення ( 4 ).
- Рядок у нижній частині рамки представляє перший квартиль ( 7 ).
- Лінія посередині рамки представляє медіану ( 12 ).
- Лінія у верхній частині рамки представляє третій квартиль ( 15 ).
- Лінія у верхній частині графіка представляє максимальне значення ( 22 ).
Приклад 2: п’ятизначний підсумок стовпця у кадрі даних
У наступному коді показано, як обчислити п’ятизначний підсумок певного стовпця у кадрі даних:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
Приклад 3: п’ятизначний підсумок кількох стовпців
У наступному коді показано, як використовувати функцію sapply() для одночасного обчислення п’ятизначного підсумку кількох стовпців у кадрі даних:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
Пов’язане: посібник із apply(), lapply(), sapply() і tapply() у R
Додаткові ресурси
Як створити зведені таблиці в R
Як знайти діапазон у R
Як видалити викиди в R