Cara menghitung statistik ringkasan untuk pandas dataframe

Oleh Benjamin anderson Juli 20, 2023 Memandu 0 Komentar

Anda dapat menggunakan metode berikut untuk menghitung statistik ringkasan untuk variabel dalam pandas DataFrame:

Metode 1: Hitung ringkasan statistik untuk semua variabel numerik

 df. describe ()

Metode 2: Hitung statistik ringkasan untuk semua variabel string

 df. describe (include=' object ')

Metode 3: Hitung ringkasan statistik yang dikelompokkan berdasarkan variabel

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan pandas DataFrame berikut:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Contoh 1: Hitung ringkasan statistik untuk semua variabel numerik

Kode berikut menunjukkan cara menghitung statistik ringkasan untuk setiap variabel numerik di DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Kita dapat melihat ringkasan statistik berikut untuk masing-masing dari tiga variabel numerik:

count: jumlah nilai bukan nol
rata-rata : Nilai rata-rata
std : Deviasi standar
min: nilai minimum
25% : Nilai pada persentil ke-25
50% : Nilai pada persentil ke-50 (juga median)
75% : Nilai pada persentil ke-75
max : Nilai maksimum

Contoh 2: Hitung statistik ringkasan untuk semua variabel string

Kode berikut menunjukkan cara menghitung statistik ringkasan untuk setiap variabel string di DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Kita dapat melihat ringkasan statistik berikut untuk variabel string di DataFrame kita:

count : Jumlah nilai bukan nol
unik : Jumlah nilai unik
di atas: nilai yang paling sering
freq : Jumlah nilai yang paling sering muncul

Contoh 3: Hitung ringkasan statistik yang dikelompokkan berdasarkan variabel

Kode berikut menunjukkan cara menghitung nilai rata-rata semua variabel numerik, yang dikelompokkan berdasarkan variabel tim :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

Outputnya menampilkan nilai rata-rata variabel poin , assist , dan rebound , yang dikelompokkan berdasarkan variabel tim .

Perhatikan bahwa kita dapat menggunakan sintaks serupa untuk menghitung statistik ringkasan yang berbeda, seperti median:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

Outputnya menampilkan nilai median dari variabel poin , assist , dan rebound , yang dikelompokkan berdasarkan variabel tim .

Catatan : Anda dapat menemukan dokumentasi lengkap fungsi deskripsi di pandas di sini .

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas panda umum lainnya:

Cara menghitung penampakan kelompok pada panda
Bagaimana menemukan nilai maksimal per grup di Pandas
Cara mengidentifikasi outlier pada panda

Tentang Penulis

Benjamin anderson

Halo, saya Benjamin, pensiunan profesor statistika yang menjadi guru Statorial yang berdedikasi. Dengan pengalaman dan keahlian yang luas di bidang statistika, saya ingin berbagi ilmu untuk memberdayakan mahasiswa melalui Statorials. Baca selengkapnya