Pandalar: kategorik değişkenler için define() nasıl kullanılır?
Varsayılan olarak pandalardaki define() işlevi, bir DataFrame’deki tüm sayısal değişkenler için tanımlayıcı istatistikleri hesaplar.
Ancak kategorik değişkenlere ilişkin tanımlayıcı istatistikleri hesaplamak için aşağıdaki yöntemleri de kullanabilirsiniz:
Yöntem 1: Kategorik Değişkenler için Tanımlayıcı İstatistikleri Hesaplayın
df. describe (include=' object ')
Bu yöntem, bir DataFrame’deki her kategorik değişken için count , benzersiz , üst ve frekansı hesaplayacaktır.
Yöntem 2: Tüm değişkenler için kategorik tanımlayıcı istatistikleri hesaplayın
df. astype (' object '). describe ()
Bu yöntem, bir DataFrame’deki her değişken için count , benzersiz , top ve freq’i hesaplayacaktır.
Aşağıdaki örnekler, her yöntemin, çeşitli basketbol oyuncuları hakkında bilgi içeren aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir :
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Örnek 1: Kategorik Değişkenler için Tanımlayıcı İstatistiklerin Hesaplanması
DataFrame’deki her kategorik değişkene ilişkin tanımlayıcı istatistikleri hesaplamak için aşağıdaki sözdizimini kullanabiliriz:
#calculate descriptive statistics for categorical variables only
df. describe (include=' object ')
team
count 8
single 8
top A
freq 1
Çıktı, DataFrame’deki tek kategorik değişken ( takım ) için çeşitli tanımlayıcı istatistikleri görüntüler.
Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:
- count : Takım sütununda 8 değer bulunmaktadır.
- benzersiz : Takım sütununda 8 benzersiz değer vardır.
- top : “Top” değeri (yani alfabedeki en yüksek değer) A’dır.
- frekans : Bu maksimum değer 1 kez görünür.
Örnek 2: Tüm değişkenler için kategorik tanımlayıcı istatistikleri hesaplayın
DataFrame’deki her değişken için count , Unique , top ve freq’i hesaplamak için aşağıdaki sözdizimini kullanabiliriz:
#calculate categorical descriptive statistics for all variables df. astype (' object '). describe () team points assists rebounds count 8 8 8 8 single 8 7 5 7 top A 14 9 6 freq 1 2 3 2
Çıktı, sayısal değişkenler de dahil olmak üzere DataFrame’deki her değişken için count , benzersiz , top ve freq’i görüntüler.
Ek kaynaklar
Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:
Pandalar: gruplara göre define() nasıl kullanılır?
Pandalar: belirli yüzdeliklerle define() nasıl kullanılır?
Pandalar: define() nasıl kullanılır ve bilimsel gösterim nasıl kaldırılır