Hoe decielen in r te berekenen (met voorbeelden)


In de statistiek zijn decielen getallen die een dataset in tien groepen met gelijke frequentie verdelen.

Het eerste deciel is het punt waar 10% van alle datawaarden daaronder valt. Het tweede deciel is het punt waar 20% van alle datawaarden daaronder valt, enzovoort.

We kunnen de volgende syntaxis gebruiken om decielen van een dataset in R te berekenen:

 quantile(data, probs = seq (.1, .9, by = .1 ))

Het volgende voorbeeld laat zien hoe u deze functie in de praktijk kunt gebruiken.

Voorbeeld: bereken decielen in R

De volgende code laat zien hoe je een nep-dataset met 20 waarden maakt en vervolgens de decielwaarden van de dataset berekent:

 #create dataset
data <- c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

#calculate deciles of dataset
quantile(data, probs = seq (.1, .9, by = .1 ))

 10% 20% 30% 40% 50% 60% 70% 80% 90% 
63.4 67.8 76.5 83.6 88.5 90.4 92.3 93.2 95.2 

De manier om decielen te interpreteren is als volgt:

  • 10% van alle datawaarden is kleiner dan 63,4
  • 20% van alle datawaarden is kleiner dan 67,8 .
  • 30% van alle datawaarden zijn kleiner dan 76,5 .
  • 40% van alle datawaarden is kleiner dan 83,6 .
  • 50% van alle datawaarden zijn kleiner dan 88,5 .
  • 60% van alle datawaarden zijn kleiner dan 90,4 .
  • 70% van alle datawaarden zijn kleiner dan 92,3 .
  • 80% van alle datawaarden zijn kleiner dan 93,2 .
  • 90% van alle datawaarden zijn kleiner dan 95,2 .

Opgemerkt moet worden dat de waarde op het 50e percentiel gelijk is aan de mediaanwaarde van de dataset.

Voorbeeld: waarden plaatsen in decielen in R

Om elke gegevenswaarde in een deciel te plaatsen, kunnen we de functie ntile(x, ngroups) uit het dplyr- pakket in R gebruiken.

U kunt deze functie als volgt gebruiken voor de gegevensset die we in het vorige voorbeeld hebben gemaakt:

 library (dplyr)

#create dataset
data <- data.frame(values=c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

#place each value into a decile
data$decile <- ntile(data, 10)

#viewdata
data

   values decile
1 56 1
2 58 1
3 64 2
4 67 2
5 68 3
6 73 3
7 78 4
8 83 4
9 84 5
10 88 5
11 89 6
12 90 6
13 91 7
14 92 7
15 93 8
16 93 8
17 94 9
18 95 9
19 97 10
20 99 10

De manier om het resultaat te interpreteren is als volgt:

  • De gegevenswaarde 56 ligt tussen het 0% en 10% percentiel en bevindt zich dus in het eerste deciel.
  • De gegevenswaarde 58 ligt tussen het 0% en 10% percentiel en bevindt zich dus in het eerste deciel.
  • Gegevenswaarde 64 ligt tussen het 10% en 20% percentiel, dus in het tweede deciel.
  • Gegevenswaarde 67 ligt tussen het 10% en 20% percentiel, dus in het tweede deciel.
  • Gegevenswaarde 68 ligt tussen het 20% en 30% percentiel, dus in het derde deciel.

Enzovoort.

Aanvullende bronnen

Hoe percentielen in R te berekenen
Hoe kwartielen in R te berekenen
Hoe frequentietabellen te maken in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert