Pandas: cara menggunakan deskripsi() untuk variabel kategori


Secara default, fungsideskripsikan() di panda menghitung statistik deskriptif untuk semua variabel numerik dalam DataFrame.

Namun, Anda juga dapat menggunakan metode berikut untuk menghitung statistik deskriptif untuk variabel kategori :

Metode 1: Hitung Statistik Deskriptif untuk Variabel Kategorikal

 df. describe (include=' object ')

Metode ini akan menghitung count , Unique , top dan freq untuk setiap variabel kategori dalam DataFrame.

Metode 2: Hitung statistik deskriptif kategoris untuk semua variabel

 df. astype (' object '). describe ()

Metode ini akan menghitung count , Unique , top dan freq untuk setiap variabel dalam DataFrame.

Contoh berikut menunjukkan cara menggunakan setiap metode dengan pandas DataFrame berikut yang berisi informasi tentang berbagai pemain bola basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Contoh 1: Hitung Statistik Deskriptif untuk Variabel Kategorikal

Kita dapat menggunakan sintaks berikut untuk menghitung statistik deskriptif untuk setiap variabel kategori di DataFrame:

 #calculate descriptive statistics for categorical variables only
df. describe (include=' object ')

team
count 8
single 8
top A
freq 1

Outputnya menampilkan berbagai statistik deskriptif untuk variabel kategori tunggal ( team ) di DataFrame.

Berikut cara menafsirkan hasilnya:

  • count : Ada 8 nilai pada kolom tim.
  • unik : Terdapat 8 nilai unik pada kolom tim.
  • top : Nilai “atas” (yaitu yang tertinggi dalam alfabet) adalah A.
  • freq : Nilai maksimum ini muncul 1 kali.

Contoh 2: Hitung statistik deskriptif kategorikal untuk semua variabel

Kita dapat menggunakan sintaks berikut untuk menghitung count , Unique , top dan freq untuk setiap variabel di DataFrame:

 #calculate categorical descriptive statistics for all variables
df. astype (' object '). describe ()

        team points assists rebounds
count 8 8 8 8
single 8 7 5 7
top A 14 9 6
freq 1 2 3 2

Outputnya menampilkan count , Unique , top dan freq untuk setiap variabel di DataFrame, termasuk variabel numerik.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Pandas: cara menggunakan deskripsikan() berdasarkan grup
Pandas: cara menggunakan deskripsikan() dengan persentil tertentu
Pandas: cara menggunakan deskripsikan() dan menghapus notasi ilmiah

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *