Pandalar get dummies nasıl kullanılır – pd.get_dummies


İstatistiklerde sıklıkla çalıştığımız veri kümeleri kategorik değişkenleri içerir.

Bunlar isim veya etiket alan değişkenlerdir. Örnekler şunları içerir:

  • Medeni durum (“evli”, “bekar”, “boşanmış”)
  • Sigara içme durumu (“sigara içen”, “sigara içmeyen”)
  • Göz rengi (“mavi”, “yeşil”, “ela”)
  • Eğitim düzeyi (örneğin “lise”, “lisans”, “yüksek lisans”)

Makine öğrenimi algoritmalarını ayarlarken ( doğrusal regresyon , lojistik regresyon , rastgele ormanlar vb. gibi), genellikle kategorik değişkenleri, kategorik verileri temsil etmek için kullanılan sayısal değişkenler olan kukla değişkenlere dönüştürürüz.

Örneğin, Gender kategorik değişkenini içeren bir veri kümemiz olduğunu varsayalım. Bu değişkeni bir regresyon modelinde yordayıcı olarak kullanmak için öncelikle onu kukla değişkene dönüştürmek gerekir.

Bu kukla değişkeni oluşturmak için değerlerden birini (“Erkek”) 0’ı, diğer değeri (“Kadın”) 1’i temsil edecek şekilde seçebiliriz:

Pandalarda kukla değişkenler nasıl oluşturulur?

Bir panda DataFrame’indeki bir değişken için kuklalar oluşturmak için aşağıdaki temel sözdizimini kullanan pandas.get_dummies() işlevini kullanabiliriz:

pandas.get_dummies(veri, önek=Yok, sütunlar=Yok, drop_first=Yanlış)

Altın:

  • data : Pandaların DataFrame adı
  • önek : yeni kukla değişken sütununun başına eklenecek bir dize
  • sütunlar : Yapay değişkene dönüştürülecek sütunların adı
  • drop_first : ilk kukla değişken sütununun bırakılıp bırakılmayacağı

Aşağıdaki örnekler bu fonksiyonun pratikte nasıl kullanılacağını göstermektedir.

Örnek 1: Tek bir kukla değişken oluşturun

Aşağıdaki pandalara sahip olduğumuzu varsayalım DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78],
                   ' age ': [23, 25, 24, 29, 38, 36, 40],
                   ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M']})

#view DataFrame
df

        income age gender
0 45 23 M
1 48 25 F
2 54 24 M
3 57 29 F
4 65 38 F
5 69 36 F
6 78 40 M

Cinsiyeti yapay bir değişkene dönüştürmek için pd.get_dummies() işlevini kullanabiliriz:

 #convert gender to dummy variable
p.d. get_dummies (df, columns=[' gender '], drop_first= True )

	income age gender_M
0 45 23 1
1 48 25 0
2 54 24 1
3 57 29 0
4 65 38 0
5 69 36 0
6 78 40 1

Cinsiyet sütunu artık kukla bir değişkendir:

  • 0 değeri “Kadın”ı temsil eder
  • 1 değeri “Erkek”i temsil eder

Örnek 2: Birden fazla kukla değişken oluşturma

Aşağıdaki pandalara sahip olduğumuzu varsayalım DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78],
                   ' age ': [23, 25, 24, 29, 38, 36, 40],
                   ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M'],
                   ' college ': ['Y', 'N', 'N', 'N', 'Y', 'Y', 'Y']})

#view DataFrame
df

	income age gender college
0 45 23 M Y
1 48 25 F N
2 54 24 M N
3 57 29 F N
4 65 38 F Y
5 69 36 F Y
6 78 40 M Y

Cinsiyet ve üniversiteyi kukla değişkenlere dönüştürmek için pd.get_dummies() işlevini kullanabiliriz:

 #convert gender to dummy variable
p.d. get_dummies (df, columns=[' gender ', ' college '], drop_first= True )


        income age gender_M college_Y
0 45 23 1 1
1 48 25 0 0
2 54 24 1 0
3 57 29 0 0
4 65 38 0 1
5 69 36 0 1
6 78 40 1 1

Cinsiyet sütunu artık kukla bir değişkendir:

  • 0 değeri “Kadın”ı temsil eder
  • 1 değeri “Erkek”i temsil eder

Ve üniversite sütunu artık kukla bir değişkendir:

  • 0 değeri “Hayır” üniversitesini temsil eder
  • 1 değeri üniversiteye “Evet”i temsil eder

Ek kaynaklar

Regresyon analizinde kukla değişkenler nasıl kullanılır?
Kukla değişken tuzağı nedir?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir