Pandas: cara menggunakan deskripsikan() dengan persentil tertentu


Anda dapat menggunakan fungsideskripsikan () untuk menghasilkan statistik deskriptif untuk variabel dalam pandas DataFrame.

Secara default, panda menghitung persentil ke-25, ke-50, dan ke-75 untuk variabel.

Namun, Anda dapat menggunakan argumen persentil dalam fungsi deskripsikan() untuk menentukan persentil yang tepat untuk dihitung.

Contoh berikut menunjukkan cara menggunakan argumen ini dalam praktik dengan pandas DataFrame berikut:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Contoh 1: Menggunakan deskripsikan() dengan persentil default

Kode berikut menunjukkan cara menggunakan fungsideskripsikan() untuk menghitung statistik deskriptif untuk setiap variabel numerik di DataFrame:

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

Perhatikan bahwa fungsi dekripsi() menghitung persentil ke-25, ke-50, dan ke-75 untuk setiap variabel secara default.

Contoh 2: Menggunakan deskripsikan() dengan persentil khusus

Kode berikut menunjukkan cara menggunakan fungsi deskripsikan() dengan argumen persentil untuk menghitung persentil ke-30, ke-60, dan ke-90 untuk setiap variabel numerik di DataFrame:

 #calculate custom percentiles for each numeric variable
df. describe (percentiles=[ .3 , .6 , .9 ])

           points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
30% 14.400000 7.00000 6.200000
50% 18.500000 8.00000 8.500000
60% 19.200000 9.00000 9.200000
90% 23.800000 9.90000 11.300000
max 28.000000 12.00000 12.000000

Perhatikan bahwa fungsideskripsikan() mengembalikan persentil ke-30, ke-60, dan ke-90 untuk setiap variabel numerik.

Catatan : Fungsi deskripsikan() juga mengembalikan persentil ke-50 karena ini mewakili nilai median setiap variabel dan merupakan salah satu metrik default yang dihitung oleh fungsi deskripsikan() .

Contoh 3: Menggunakan deskripsikan() tanpa persentil

Kode berikut menunjukkan cara menggunakan fungsi deskripsikan() dengan argumen persentil=[] untuk menghitung tanpa persentil untuk setiap variabel numerik di DataFrame:

 #calculate no percentiles for each numeric variable
df. describe (percentiles=[])

           points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
50% 18.500000 8.00000 8.500000
max 28.000000 12.00000 12.000000

Perhatikan bahwa persentil ke-25 dan ke-75 tidak lagi dihitung untuk setiap variabel.

Perhatikan bahwa persentil ke-50 selalu disertakan dalam hasil karena mewakili nilai median setiap variabel.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Pandas: cara menggunakan deskripsikan() berdasarkan grup
Pandas: cara menggunakan deskripsikan() dan menghapus notasi ilmiah
Pandas: cara menghitung mean, median dan modus

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *