Pandas: cara menggunakan deskripsikan() berdasarkan grup


Anda dapat menggunakan fungsideskripsikan () untuk menghasilkan statistik deskriptif untuk variabel dalam pandas DataFrame.

Anda dapat menggunakan sintaks dasar berikut untuk menggunakan fungsi deskripsikan() dengan fungsi groupby() di pandas:

 df. groupby (' group_var ')[' values_var ']. describe ()

Contoh berikut menunjukkan cara menggunakan sintaksis ini dalam praktiknya.

Contoh: gunakan deskripsikan() oleh Grup di Pandas

Misalkan kita memiliki pandas DataFrame berikut yang berisi informasi tentang pemain bola basket dari dua tim berbeda:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [8, 12, 14, 14, 15, 22, 27, 24],
                   ' assists ':[2, 2, 3, 5, 7, 6, 8, 12]})

#view DataFrame
print (df)

  team points assists
0 to 8 2
1 to 12 2
2 to 14 3
3 to 14 5
4 B 15 7
5 B 22 6
6 B 27 8
7 B 24 12

Kita dapat menggunakan fungsi deskripsi() dengan fungsi groupby() untuk meringkas nilai pada kolom poin untuk setiap tim :

 #summarize points by team
df. groupby (' team ')[' points ']. describe ()

count mean std min 25% 50% 75% max
team								
A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Dari hasilnya kita dapat melihat nilai variabel poin masing-masing tim sebagai berikut:

  • count (jumlah pengamatan)
  • rata-rata (nilai poin rata-rata)
  • std (deviasi standar nilai poin)
  • min (nilai poin minimum)
  • 25 % (persentil poin ke-25)
  • 50 % (persentil ke-50 (yaitu median) poin)
  • 75 % (persentil poin ke-75)
  • max (nilai poin maksimum)

Jika Anda ingin hasilnya ditampilkan dalam format DataFrame, Anda dapat menggunakan argumen reset_index() :

 #summarize points by team
df. groupby (' team ')[' points ']. describe (). reset_index ()

        team count mean std min 25% 50% 75% max
0 A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
1 B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Variabel tim sekarang menjadi kolom di DataFrame dan nilai indeksnya adalah 0 dan 1.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Pandas: cara menghitung jumlah kumulatif per kelompok
Pandas: cara menghitung nilai unik berdasarkan kelompok
Pandas: cara menghitung korelasi berdasarkan kelompok

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *