Cara menghitung statistik ringkasan untuk pandas dataframe
Anda dapat menggunakan metode berikut untuk menghitung statistik ringkasan untuk variabel dalam pandas DataFrame:
Metode 1: Hitung ringkasan statistik untuk semua variabel numerik
df. describe ()
Metode 2: Hitung statistik ringkasan untuk semua variabel string
df. describe (include=' object ')
Metode 3: Hitung ringkasan statistik yang dikelompokkan berdasarkan variabel
df. groupby (' group_column '). mean () df. groupby (' group_column '). median () df. groupby (' group_column '). max () ...
Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan pandas DataFrame berikut:
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30], ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]}) #view DataFrame print (df) team points assists rebounds 0 to 18 5.0 11.0 1 to 22 NaN 8.0 2 A 19 7.0 10.0 3 A 14 9.0 6.0 4 B 14 12.0 6.0 5 B 11 9.0 5.0 6 B 20 9.0 9.0 7 B 28 4.0 NaN 8 B 30 5.0 6.0
Contoh 1: Hitung ringkasan statistik untuk semua variabel numerik
Kode berikut menunjukkan cara menghitung statistik ringkasan untuk setiap variabel numerik di DataFrame:
df. describe ()
points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000
Kita dapat melihat ringkasan statistik berikut untuk masing-masing dari tiga variabel numerik:
- count: jumlah nilai bukan nol
- rata-rata : Nilai rata-rata
- std : Deviasi standar
- min: nilai minimum
- 25% : Nilai pada persentil ke-25
- 50% : Nilai pada persentil ke-50 (juga median)
- 75% : Nilai pada persentil ke-75
- max : Nilai maksimum
Contoh 2: Hitung statistik ringkasan untuk semua variabel string
Kode berikut menunjukkan cara menghitung statistik ringkasan untuk setiap variabel string di DataFrame:
df. describe (include=' object ') team count 9 single 2 top B freq 5
Kita dapat melihat ringkasan statistik berikut untuk variabel string di DataFrame kita:
- count : Jumlah nilai bukan nol
- unik : Jumlah nilai unik
- di atas: nilai yang paling sering
- freq : Jumlah nilai yang paling sering muncul
Contoh 3: Hitung ringkasan statistik yang dikelompokkan berdasarkan variabel
Kode berikut menunjukkan cara menghitung nilai rata-rata semua variabel numerik, yang dikelompokkan berdasarkan variabel tim :
df. groupby (' team '). mean () points assists rebounds team A 18.25 7.0 8.75 B 20.60 7.8 6.50
Outputnya menampilkan nilai rata-rata variabel poin , assist , dan rebound , yang dikelompokkan berdasarkan variabel tim .
Perhatikan bahwa kita dapat menggunakan sintaks serupa untuk menghitung statistik ringkasan yang berbeda, seperti median:
df. groupby (' team '). median () points assists rebounds team A 18.5 7.0 9.0 B 20.0 9.0 6.0
Outputnya menampilkan nilai median dari variabel poin , assist , dan rebound , yang dikelompokkan berdasarkan variabel tim .
Catatan : Anda dapat menemukan dokumentasi lengkap fungsi deskripsi di pandas di sini .
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan tugas panda umum lainnya:
Cara menghitung penampakan kelompok pada panda
Bagaimana menemukan nilai maksimal per grup di Pandas
Cara mengidentifikasi outlier pada panda