Pandas: cara menggunakan deskripsi() untuk variabel kategori
Secara default, fungsideskripsikan() di panda menghitung statistik deskriptif untuk semua variabel numerik dalam DataFrame.
Namun, Anda juga dapat menggunakan metode berikut untuk menghitung statistik deskriptif untuk variabel kategori :
Metode 1: Hitung Statistik Deskriptif untuk Variabel Kategorikal
df. describe (include=' object ')
Metode ini akan menghitung count , Unique , top dan freq untuk setiap variabel kategori dalam DataFrame.
Metode 2: Hitung statistik deskriptif kategoris untuk semua variabel
df. astype (' object '). describe ()
Metode ini akan menghitung count , Unique , top dan freq untuk setiap variabel dalam DataFrame.
Contoh berikut menunjukkan cara menggunakan setiap metode dengan pandas DataFrame berikut yang berisi informasi tentang berbagai pemain bola basket:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Contoh 1: Hitung Statistik Deskriptif untuk Variabel Kategorikal
Kita dapat menggunakan sintaks berikut untuk menghitung statistik deskriptif untuk setiap variabel kategori di DataFrame:
#calculate descriptive statistics for categorical variables only
df. describe (include=' object ')
team
count 8
single 8
top A
freq 1
Outputnya menampilkan berbagai statistik deskriptif untuk variabel kategori tunggal ( team ) di DataFrame.
Berikut cara menafsirkan hasilnya:
- count : Ada 8 nilai pada kolom tim.
- unik : Terdapat 8 nilai unik pada kolom tim.
- top : Nilai “atas” (yaitu yang tertinggi dalam alfabet) adalah A.
- freq : Nilai maksimum ini muncul 1 kali.
Contoh 2: Hitung statistik deskriptif kategorikal untuk semua variabel
Kita dapat menggunakan sintaks berikut untuk menghitung count , Unique , top dan freq untuk setiap variabel di DataFrame:
#calculate categorical descriptive statistics for all variables df. astype (' object '). describe () team points assists rebounds count 8 8 8 8 single 8 7 5 7 top A 14 9 6 freq 1 2 3 2
Outputnya menampilkan count , Unique , top dan freq untuk setiap variabel di DataFrame, termasuk variabel numerik.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:
Pandas: cara menggunakan deskripsikan() berdasarkan grup
Pandas: cara menggunakan deskripsikan() dengan persentil tertentu
Pandas: cara menggunakan deskripsikan() dan menghapus notasi ilmiah