Як розрахувати децилі в r (з прикладами)


У статистиці децилі — це числа, які ділять набір даних на десять груп однакової частоти.

Перший дециль – це точка, де 10% усіх значень даних падають нижче. Другий дециль – це точка, де 20% усіх значень даних падають нижче, і так далі.

Ми можемо використовувати такий синтаксис для обчислення децилів набору даних у R:

 quantile(data, probs = seq (.1, .9, by = .1 ))

У наступному прикладі показано, як використовувати цю функцію на практиці.

Приклад: обчислити децилі в R

Наступний код показує, як створити фальшивий набір даних із 20 значеннями, а потім обчислити децильні значення набору даних:

 #create dataset
data <- c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

#calculate deciles of dataset
quantile(data, probs = seq (.1, .9, by = .1 ))

 10% 20% 30% 40% 50% 60% 70% 80% 90% 
63.4 67.8 76.5 83.6 88.5 90.4 92.3 93.2 95.2 

Спосіб інтерпретації децилів наступний:

  • 10% всіх значень даних менше 63,4
  • 20% усіх значень даних менше 67,8 .
  • 30% усіх значень даних менше 76,5 .
  • 40% усіх значень даних менше 83,6 .
  • 50% усіх значень даних менше 88,5 .
  • 60% усіх значень даних менше 90,4 .
  • 70% усіх значень даних менше 92,3 .
  • 80% усіх значень даних менше 93,2 .
  • 90% усіх значень даних менше 95,2 .

Слід зазначити, що значення на 50-му процентилі дорівнює середньому значенню набору даних.

Приклад: розміщення значень у децилях у R

Щоб помістити кожне значення даних у дециль, ми можемо використати функцію ntile(x, ngroups) із пакету dplyr у R.

Ось як використовувати цю функцію для набору даних, який ми створили в попередньому прикладі:

 library (dplyr)

#create dataset
data <- data.frame(values=c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

#place each value into a decile
data$decile <- ntile(data, 10)

#viewdata
data

   values decile
1 56 1
2 58 1
3 64 2
4 67 2
5 68 3
6 73 3
7 78 4
8 83 4
9 84 5
10 88 5
11 89 6
12 90 6
13 91 7
14 92 7
15 93 8
16 93 8
17 94 9
18 95 9
19 97 10
20 99 10

Спосіб інтерпретації результату такий:

  • Значення даних 56 знаходиться між процентилем від 0% до 10%, тому воно знаходиться в першому децилі.
  • Значення даних 58 знаходиться між процентилем від 0% до 10%, тому воно знаходиться в першому децилі.
  • Значення даних 64 знаходиться між 10% і 20% процентилем, тому воно знаходиться у другому децилі.
  • Значення даних 67 знаходиться між 10% і 20% процентилем, тому воно знаходиться у другому децилі.
  • Значення даних 68 знаходиться між 20% і 30% процентилем, тому воно знаходиться в третьому децилі.

І так далі.

Додаткові ресурси

Як обчислити процентиль у R
Як обчислити квартилі в R
Як створити частотні таблиці в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *