Cara menghitung rangkuman lima angka di pandas


Ringkasan lima digit adalah cara meringkas sekumpulan data menggunakan lima nilai berikut:

  • Minimum
  • Kuartil pertama
  • median
  • Kuartil ketiga
  • Maksimal

Ringkasan lima angka berguna karena memberikan ringkasan singkat tentang distribusi data sebagai berikut:

  • Ini memberi tahu kita di mana nilai median berada, dengan menggunakan median.
  • Ini memberitahu kita distribusi data, menggunakan kuartil pertama dan ketiga.
  • Ini memberi tahu kita rentang data, menggunakan minimum dan maksimum.

Cara paling sederhana untuk menghitung ringkasan lima angka untuk variabel dalam pandas DataFrame adalah dengan menggunakan fungsi deskripsikan () sebagai berikut:

 df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

Contoh berikut menunjukkan cara menggunakan sintaksis ini dalam praktiknya.

Contoh: Hitung ringkasan lima angka di Pandas DataFrame

Misalkan kita memiliki pandas DataFrame berikut yang berisi informasi tentang berbagai pemain bola basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Kita dapat menggunakan sintaks berikut untuk menghitung ringkasan lima angka untuk setiap variabel numerik di DataFrame:

 #calculate five number summary for each numeric variable
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

      points assists rebounds
min 11.0 4.0 5.00
25% 14.0 6.5 6.00
50% 18.5 8.0 8.50
75% 20.5 9.0 10.25
max 28.0 12.0 12.00

Berikut cara menginterpretasikan hasil variabel poin :

  • Nilai minimumnya adalah 11 .
  • Nilai pada persentil ke 25 adalah 14 .
  • Nilai persentil ke-50 adalah 18,5 .
  • Nilai persentil ke-75 adalah 20,5 .
  • Nilai maksimumnya adalah 28 .

Kita dapat menginterpretasikan nilai variabel bantuan dan rebound dengan cara yang sama.

Jika Anda hanya ingin menghitung ringkasan lima angka untuk variabel tertentu di DataFrame, Anda dapat menggunakan sintaks berikut:

 #calculate five number summary for the points variable
df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

min 11.0
25% 14.0
50% 18.5
75% 20.5
max 28.0
Name: points, dtype: float64

Outputnya sekarang menampilkan ringkasan lima digit hanya untuk variabel poin .

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas panda umum lainnya:

Pandas: Cara mendapatkan jumlah frekuensi nilai dalam sebuah kolom
Pandas: cara menghitung rata-rata per kelompok
Pandas: cara menghitung median berdasarkan kelompok

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *