Pandalar: kategorik değişkenler için define() nasıl kullanılır?


Varsayılan olarak pandalardaki define() işlevi, bir DataFrame’deki tüm sayısal değişkenler için tanımlayıcı istatistikleri hesaplar.

Ancak kategorik değişkenlere ilişkin tanımlayıcı istatistikleri hesaplamak için aşağıdaki yöntemleri de kullanabilirsiniz:

Yöntem 1: Kategorik Değişkenler için Tanımlayıcı İstatistikleri Hesaplayın

 df. describe (include=' object ')

Bu yöntem, bir DataFrame’deki her kategorik değişken için count , benzersiz , üst ve frekansı hesaplayacaktır.

Yöntem 2: Tüm değişkenler için kategorik tanımlayıcı istatistikleri hesaplayın

 df. astype (' object '). describe ()

Bu yöntem, bir DataFrame’deki her değişken için count , benzersiz , top ve freq’i hesaplayacaktır.

Aşağıdaki örnekler, her yöntemin, çeşitli basketbol oyuncuları hakkında bilgi içeren aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir :

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Örnek 1: Kategorik Değişkenler için Tanımlayıcı İstatistiklerin Hesaplanması

DataFrame’deki her kategorik değişkene ilişkin tanımlayıcı istatistikleri hesaplamak için aşağıdaki sözdizimini kullanabiliriz:

 #calculate descriptive statistics for categorical variables only
df. describe (include=' object ')

team
count 8
single 8
top A
freq 1

Çıktı, DataFrame’deki tek kategorik değişken ( takım ) için çeşitli tanımlayıcı istatistikleri görüntüler.

Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:

  • count : Takım sütununda 8 değer bulunmaktadır.
  • benzersiz : Takım sütununda 8 benzersiz değer vardır.
  • top : “Top” değeri (yani alfabedeki en yüksek değer) A’dır.
  • frekans : Bu maksimum değer 1 kez görünür.

Örnek 2: Tüm değişkenler için kategorik tanımlayıcı istatistikleri hesaplayın

DataFrame’deki her değişken için count , Unique , top ve freq’i hesaplamak için aşağıdaki sözdizimini kullanabiliriz:

 #calculate categorical descriptive statistics for all variables
df. astype (' object '). describe ()

        team points assists rebounds
count 8 8 8 8
single 8 7 5 7
top A 14 9 6
freq 1 2 3 2

Çıktı, sayısal değişkenler de dahil olmak üzere DataFrame’deki her değişken için count , benzersiz , top ve freq’i görüntüler.

Ek kaynaklar

Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalar: gruplara göre define() nasıl kullanılır?
Pandalar: belirli yüzdeliklerle define() nasıl kullanılır?
Pandalar: define() nasıl kullanılır ve bilimsel gösterim nasıl kaldırılır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir