Pandalar: gruplara göre define() nasıl kullanılır?


Bir pandanın DataFrame’indeki değişkenler için tanımlayıcı istatistikler oluşturmak amacıyla define() işlevini kullanabilirsiniz.

Pandalarda define() işlevini groupby() işleviyle birlikte kullanmak için aşağıdaki temel sözdizimini kullanabilirsiniz:

 df. groupby (' group_var ')[' values_var ']. describe ()

Aşağıdaki örnek, bu sözdiziminin pratikte nasıl kullanılacağını gösterir.

Örnek: Pandas’ta Group tarafından define() işlevini kullanın

İki farklı takımdan basketbol oyuncuları hakkında bilgi içeren aşağıdaki pandalar DataFrame’e sahip olduğumuzu varsayalım:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [8, 12, 14, 14, 15, 22, 27, 24],
                   ' assists ':[2, 2, 3, 5, 7, 6, 8, 12]})

#view DataFrame
print (df)

  team points assists
0 to 8 2
1 to 12 2
2 to 14 3
3 to 14 5
4 B 15 7
5 B 22 6
6 B 27 8
7 B 24 12

Her takım için puan sütunundaki değerleri özetlemek için define() işlevini groupby() işleviyle birlikte kullanabiliriz:

 #summarize points by team
df. groupby (' team ')[' points ']. describe ()

count mean std min 25% 50% 75% max
team								
A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Sonuçtan her takımın puan değişkenine ilişkin aşağıdaki değerleri görebiliriz:

  • sayım (gözlem sayısı)
  • ortalama (ortalama puan değeri)
  • std (nokta değerlerinin standart sapması)
  • min (minimum puan değeri)
  • % 25 (puanların 25’inci yüzdelik dilimi)
  • % 50 (puanların 50. yüzdelik dilimi (yani medyan))
  • % 75 (puanların 75. yüzdelik dilimi)
  • max (maksimum puan değeri)

Sonuçların DataFrame formatında görüntülenmesini istiyorsanız reset_index() bağımsız değişkenini kullanabilirsiniz:

 #summarize points by team
df. groupby (' team ')[' points ']. describe (). reset_index ()

        team count mean std min 25% 50% 75% max
0 A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
1 B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Takım değişkeni artık DataFrame’de bir sütundur ve indeks değerleri 0 ve 1’dir.

Ek kaynaklar

Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalar: Grup başına kümülatif toplam nasıl hesaplanır?
Pandalar: benzersiz değerlerin gruba göre nasıl sayılacağı
Pandalar: gruba göre korelasyon nasıl hesaplanır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir