Pandas: cara menggunakan deskripsikan() hanya untuk mean dan std


Anda dapat menggunakan fungsideskripsikan () untuk menghasilkan statistik deskriptif untuk variabel dalam pandas DataFrame.

Secara default, fungsideskripsikan() menghitung metrik berikut untuk setiap variabel numerik dalam DataFrame:

  • count (jumlah nilai)
  • rata-rata (nilai rata-rata)
  • std (deviasi standar)
  • min (nilai minimum)
  • 25% (persentil ke-25)
  • 50% (persentil ke-50)
  • 75% (persentil ke-75)
  • maks (nilai maksimum)

Namun, Anda dapat menggunakan sintaks berikut untuk menghitung rata-rata dan deviasi standar setiap variabel numerik saja:

 df. describe (). loc [[' mean ', ' std ']]

Contoh berikut menunjukkan cara menggunakan sintaksis ini dalam praktiknya.

Contoh: Gunakan deskripsikan() di Pandas untuk menghitung mean dan standar saja

Misalkan kita memiliki pandas DataFrame berikut yang berisi informasi tentang berbagai pemain bola basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Jika kita menggunakan fungsideskripsikan () , kita dapat menghitung statistik deskriptif untuk setiap variabel numerik di DataFrame:

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

Namun, kita dapat menggunakan sintaks berikut untuk menghitung mean dan deviasi standar setiap variabel numerik saja:

 #only calculate mean and standard deviation of each numeric variable
df. describe (). loc [[' mean ', ' std ']]

           points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994

Perhatikan bahwa output hanya mencakup mean dan deviasi standar untuk setiap variabel numerik.

Perhatikan bahwa fungsi deskripsi() masih menghitung setiap statistik deskriptif seperti sebelumnya, namun kita menggunakan fungsi loc untuk memilih hanya baris bernama mean dan std pada output.

Terkait: Pandas loc vs iloc: apa bedanya?

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Pandas: cara menggunakan deskripsikan() berdasarkan grup
Pandas: cara menggunakan deskripsikan() dengan persentil tertentu
Pandas: cara menggunakan deskripsikan() dan menghapus notasi ilmiah

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *