Comment calculer les déciles dans R (avec exemples)



En statistiques, les déciles sont des nombres qui divisent un ensemble de données en dix groupes de fréquence égale.

Le premier décile est le point où 10 % de toutes les valeurs de données se situent en dessous. Le deuxième décile est le point où 20 % de toutes les valeurs de données se situent en dessous, et ainsi de suite.

Nous pouvons utiliser la syntaxe suivante pour calculer les déciles d’un ensemble de données dans R :

quantile(data, probs = seq(.1, .9, by = .1))

L’exemple suivant montre comment utiliser cette fonction dans la pratique.

Exemple : calculer les déciles dans R

Le code suivant montre comment créer un faux ensemble de données avec 20 valeurs, puis calculer les valeurs des déciles de l’ensemble de données :

#create dataset
data <- c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

#calculate deciles of dataset
quantile(data, probs = seq(.1, .9, by = .1))

 10%  20%  30%  40%  50%  60%  70%  80%  90% 
63.4 67.8 76.5 83.6 88.5 90.4 92.3 93.2 95.2 

La façon d’interpréter les déciles est la suivante :

  • 10 % de toutes les valeurs de données sont inférieures à 63,4
  • 20 % de toutes les valeurs de données sont inférieures à 67,8 .
  • 30 % de toutes les valeurs de données sont inférieures à 76,5 .
  • 40 % de toutes les valeurs de données sont inférieures à 83,6 .
  • 50 % de toutes les valeurs de données sont inférieures à 88,5 .
  • 60 % de toutes les valeurs de données sont inférieures à 90,4 .
  • 70 % de toutes les valeurs de données sont inférieures à 92,3 .
  • 80 % de toutes les valeurs de données sont inférieures à 93,2 .
  • 90 % de toutes les valeurs de données sont inférieures à 95,2 .

Il convient de noter que la valeur au 50e percentile est égale à la valeur médiane de l’ensemble de données.

Exemple : placer les valeurs dans les déciles dans R

Pour placer chaque valeur de données dans un décile, nous pouvons utiliser la fonction ntile(x, ngroups) du package dplyr dans R.

Voici comment utiliser cette fonction pour l’ensemble de données que nous avons créé dans l’exemple précédent :

library(dplyr) 

#create dataset
data <- data.frame(values=c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

#place each value into a decile
data$decile <- ntile(data, 10)

#view data
data

   values decile
1      56      1
2      58      1
3      64      2
4      67      2
5      68      3
6      73      3
7      78      4
8      83      4
9      84      5
10     88      5
11     89      6
12     90      6
13     91      7
14     92      7
15     93      8
16     93      8
17     94      9
18     95      9
19     97     10
20     99     10

La façon d’interpréter le résultat est la suivante :

  • La valeur des données 56 se situe entre le percentile 0 % et 10 %, elle se situe donc dans le premier décile.
  • La valeur des données 58 se situe entre le percentile 0 % et 10 %, elle se situe donc dans le premier décile.
  • La valeur des données 64 se situe entre le percentile 10 % et 20 %, elle se situe donc dans le deuxième décile.
  • La valeur des données 67 se situe entre le percentile 10 % et 20 %, elle se situe donc dans le deuxième décile.
  • La valeur des données 68 se situe entre le percentile 20 % et 30 %, elle se situe donc dans le troisième décile.

Et ainsi de suite.

Ressources additionnelles

Comment calculer les centiles en R
Comment calculer les quartiles dans R
Comment créer des tableaux de fréquences dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *