Cara memplot distribusi nilai kolom di pandas


Anda dapat menggunakan metode berikut untuk memplot distribusi nilai kolom di pandas DataFrame:

Metode 1: Plot distribusi nilai dalam sebuah kolom

 df[' my_column ']. plot (kind=' kde ')

Metode 2: Plot sebaran nilai dalam satu kolom, dikelompokkan berdasarkan kolom lain

 df. groupby (' group_column ')[' values_column ']. plot (kind=' kde ')

Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan pandas DataFrame berikut:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
                            'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [3, 3, 4, 5, 4, 7, 7, 7, 10, 11, 
                              8, 7, 8, 9, 12, 12, 12, 14, 15, 17]})

#view DataFrame
print (df)

   team points
0 to 3
1 to 3
2 to 4
3 to 5
4 to 4
5 TO 7
6 to 7
7 to 7
8 to 10
9 to 11
10 B 8
11 B 7
12 B 8
13 B 9
14 B 12
15 B 12
16 B 12
17 B 14
18 B 15
19 B 17

Contoh 1: Plot distribusi nilai dalam sebuah kolom

Kode berikut menunjukkan cara memplot sebaran nilai pada kolom poin :

 #plot distribution of values in points column
df[' points ']. plot (kind=' kde ')

Perhatikan bahwa kind=’kde’ memberitahu panda untuk menggunakan estimasi kepadatan kernel , yang menghasilkan kurva mulus yang merangkum distribusi nilai suatu variabel.

Jika Anda ingin membuat histogram, Anda dapat menentukan kind=’hist’ sebagai berikut:

 #plot distribution of values in points column using histogram
df[' points ']. plot (kind=' hist ', edgecolor=' black ') 

Metode ini menggunakan batang untuk merepresentasikan frekuensi nilai dalam kolom titik , bukan garis halus yang merangkum bentuk distribusi.

Contoh 2: Plot sebaran nilai dalam satu kolom, dikelompokkan berdasarkan kolom lain

Kode berikut menunjukkan cara memplot sebaran nilai pada kolom poin yang dikelompokkan berdasarkan kolom tim :

 import matplotlib.pyplot as plt

#plot distribution of points by team 
df. groupby (' team ')[' points ']. plot (kind=' kde ')

#add legend
plt. legend ([' A ',' B '], title=' Team ')

#add x-axis label
plt. xlabel (' Points ')

Garis biru menunjukkan sebaran poin pemain di tim A sedangkan garis oranye menunjukkan sebaran poin pemain di tim B.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di panda:

Bagaimana cara menambahkan judul ke plot di Pandas
Cara menyesuaikan ukuran gambar plot panda
Cara memplot beberapa Pandas DataFrames di subplot
Cara Membuat dan Menyesuaikan Plot Legenda di Pandas

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *