Pandas dataframe için özet istatistikler nasıl hesaplanır


Bir pandas DataFrame’deki değişkenlere ilişkin özet istatistikleri hesaplamak için aşağıdaki yöntemleri kullanabilirsiniz:

Yöntem 1: Tüm sayısal değişkenler için özet istatistikleri hesaplayın

 df. describe ()

Yöntem 2: Tüm dize değişkenleri için özet istatistikleri hesaplayın

 df. describe (include=' object ')

Yöntem 3: Bir değişkene göre gruplandırılmış özet istatistikleri hesaplama

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Aşağıdaki örnekler, her yöntemin pratikte aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Örnek 1: Tüm sayısal değişkenler için özet istatistikleri hesaplayın

Aşağıdaki kod, DataFrame’deki her sayısal değişken için özet istatistiklerinin nasıl hesaplanacağını gösterir:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Üç sayısal değişkenin her biri için aşağıdaki özet istatistikleri görebiliriz:

  • count: sıfır olmayan değerlerin sayısı
  • ortalama : Ortalama değer
  • std : Standart sapma
  • min: minimum değer
  • %25 : 25. yüzdelik dilimdeki değer
  • %50 : 50. yüzdelik dilimdeki değer (aynı zamanda medyan)
  • %75 : 75. yüzdelik dilimdeki değer
  • max : Maksimum değer

Örnek 2: Tüm dize değişkenleri için özet istatistikleri hesaplayın

Aşağıdaki kod, DataFrame’deki her dize değişkeni için özet istatistiklerinin nasıl hesaplanacağını gösterir:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

DataFrame’imizde string değişkeni için aşağıdaki özet istatistiklerini görebiliriz:

  • count : Sıfır olmayan değerlerin sayısı
  • benzersiz : Benzersiz değerlerin sayısı
  • üstte: en sık görülen değer
  • freq : En sık görünen değerlerin sayısı

Örnek 3: Bir değişkene göre gruplandırılmış özet istatistikleri hesaplama

Aşağıdaki kod, takım değişkenine göre gruplandırılmış tüm sayısal değişkenlerin ortalama değerinin nasıl hesaplanacağını gösterir:

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

Çıktı, takım değişkenine göre gruplandırılmış sayı , asist ve ribaund değişkenlerinin ortalama değerini görüntüler.

Medyan gibi farklı bir özet istatistiğini hesaplamak için benzer sözdizimini kullanabileceğimizi unutmayın:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

Çıktı, takım değişkenine göre gruplandırılmış sayı , asist ve ribaund değişkenlerinin medyan değerini görüntüler.

Not : Pandalardaki açıklama fonksiyonunun tam belgelerini burada bulabilirsiniz.

Ek kaynaklar

Aşağıdaki eğitimlerde diğer yaygın panda görevlerinin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalarda grup görülmeleri nasıl sayılır?
Pandalar’da grup başına maksimum değer nasıl bulunur?
Pandalarda aykırı değerler nasıl belirlenir

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir