So berechnen sie dezile in python: mit beispielen


In der Statistik sind Dezile Zahlen, die einen Datensatz in zehn Gruppen gleicher Häufigkeit unterteilen.

Das erste Dezil ist der Punkt, den 10 % aller Datenwerte unterschreiten. Das zweite Dezil ist der Punkt, an dem 20 % aller Datenwerte unterschritten werden, und so weiter.

Wir können die folgende Syntax verwenden, um Dezile eines Datensatzes in Python zu berechnen:

 import numpy as np

n.p. percentile (var, np. arange (0, 100, 10))

Das folgende Beispiel zeigt, wie Sie diese Funktion in der Praxis nutzen können.

Beispiel: Dezile in Python berechnen

Der folgende Code zeigt, wie man einen gefälschten Datensatz mit 20 Werten erstellt und dann die Dezilwerte des Datensatzes berechnet:

 import numpy as np

#createdata
data = np. array ([56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                 89, 90, 91, 92, 93, 93, 94, 95, 97, 99])

#calculate deciles of data
n.p. percentile (data, np. arange (0, 100, 10))

array([56., 63.4, 67.8, 76.5, 83.6, 88.5, 90.4, 92.3, 93.2, 95.2])

Dezile werden wie folgt interpretiert:

  • 10 % aller Datenwerte liegen unter 63,4
  • 20 % aller Datenwerte liegen unter 67,8 .
  • 30 % aller Datenwerte liegen unter 76,5 .
  • 40 % aller Datenwerte liegen unter 83,6 .
  • 50 % aller Datenwerte liegen unter 88,5 .
  • 60 % aller Datenwerte liegen unter 90,4 .
  • 70 % aller Datenwerte liegen unter 92,3 .
  • 80 % aller Datenwerte liegen unter 93,2 .
  • 90 % aller Datenwerte liegen unter 95,2 .

Beachten Sie, dass der erste Wert der Ausgabe (56) lediglich den Mindestwert des Datensatzes angibt.

Beispiel: Platzieren von Werten in Dezilen in Python

Um jeden Datenwert in einem Dezil zu platzieren, können wir die Pandas- Qcut -Funktion verwenden.

So verwenden Sie diese Funktion für den Datensatz, den wir im vorherigen Beispiel erstellt haben:

 import pandas as pd

#create data frame
df = pd. DataFrame ({' values ': [56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                              89, 90, 91, 92, 93, 93, 94, 95, 97, 99]})

#calculate decile of each value in data frame
df[' Decile '] = pd. qcut (df[' values '], 10, labels= False )

#display data frame
df

	values Decile
0 56 0
1 58 0
2 64 1
3 67 1
4 68 2
5 73 2
6 78 3
7 83 3
8 84 4
9 88 4
10 89 5
11 90 5
12 91 6
13 92 6
14 93 7
15 93 7
16 94 8
17 95 8
18 97 9
19 99 9

Das Ergebnis lässt sich wie folgt interpretieren:

  • Der Datenwert 56 liegt zwischen Perzentil 0 % und 10 %, also im Dezil 0 .
  • Der Datenwert 58 liegt zwischen Perzentil 0 % und 10 %, also im Dezil 0 .
  • Der Datenwert 64 liegt zwischen dem 10 %- und dem 20 %-Perzentil, also im Dezil 1 .
  • Der Datenwert 67 liegt zwischen dem 10 %- und dem 20 %-Perzentil, also in Dezil 1 .
  • Der Datenwert 68 liegt zwischen dem 20 %- und dem 30 %-Perzentil, also im Dezil 2 .

Und so weiter.

Zusätzliche Ressourcen

So berechnen Sie Perzentile in Python
So berechnen Sie den Interquartilbereich in Python

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert