Pandalar: açıklama () yalnızca ortalama ve std için nasıl kullanılır?


Bir pandanın DataFrame’indeki değişkenler için tanımlayıcı istatistikler oluşturmak amacıyla define() işlevini kullanabilirsiniz.

Varsayılan olarak, define() işlevi bir DataFrame’deki her sayısal değişken için aşağıdaki ölçümleri hesaplar:

  • sayımı (değerlerin sayısı)
  • ortalama (ortalama değer)
  • std (standart sapma)
  • min (minimum değer)
  • %25 (25. yüzdelik dilim)
  • %50 (yüzde 50)
  • %75 (75. yüzdelik dilim)
  • maksimum (maksimum değer)

Ancak her sayısal değişkenin yalnızca ortalamasını ve standart sapmasını hesaplamak için aşağıdaki sözdizimini kullanabilirsiniz:

 df. describe (). loc [[' mean ', ' std ']]

Aşağıdaki örnek, bu sözdiziminin pratikte nasıl kullanılacağını gösterir.

Örnek: Yalnızca ortalamayı ve standardı hesaplamak için Pandas’ta define() işlevini kullanın

Çeşitli basketbol oyuncuları hakkında bilgi içeren aşağıdaki pandalar DataFrame’e sahip olduğumuzu varsayalım:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Açıklama() işlevini kullanırsak DataFrame’deki her sayısal değişken için tanımlayıcı istatistikleri hesaplayabiliriz:

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

Ancak her sayısal değişkenin yalnızca ortalamasını ve standart sapmasını hesaplamak için aşağıdaki sözdizimini kullanabiliriz:

 #only calculate mean and standard deviation of each numeric variable
df. describe (). loc [[' mean ', ' std ']]

           points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994

Çıktının yalnızca her sayısal değişken için ortalama ve standart sapmayı içerdiğini unutmayın.

Açıklama () işlevinin her bir tanımlayıcı istatistiği daha önce olduğu gibi hesapladığını ancak çıktıda yalnızca ortalama ve std adlı satırları seçmek için loc işlevini kullandığımızı unutmayın.

İlgili: Pandalar loc vs iloc: fark nedir?

Ek kaynaklar

Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalar: gruplara göre define() nasıl kullanılır?
Pandalar: belirli yüzdelik dilimlerle define() nasıl kullanılır?
Pandalar: define() nasıl kullanılır ve bilimsel gösterim nasıl kaldırılır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir