Cara menggunakan pandas get dummies – pd.get_dummies
Seringkali dalam statistik, kumpulan data yang kami gunakan menyertakan variabel kategori .
Ini adalah variabel yang mengambil nama atau label. Contohnya meliputi:
- Status perkawinan (“menikah”, “lajang”, “bercerai”)
- Status merokok (“perokok”, “bukan perokok”)
- Warna mata (“biru”, “hijau”, “cokelat”)
- Tingkat pendidikan (misalnya “sekolah menengah atas”, “gelar sarjana”, “gelar master”)
Saat menyetel algoritme pembelajaran mesin (seperti regresi linier , regresi logistik , hutan acak , dll.), kami sering mengonversi variabel kategori menjadi variabel dummy , yaitu variabel numerik yang digunakan untuk mewakili data kategorikal.
Misalnya, kita memiliki kumpulan data yang berisi variabel kategori Gender . Untuk menggunakan variabel ini sebagai prediktor dalam model regresi, variabel tersebut perlu diubah terlebih dahulu menjadi variabel dummy.
Untuk membuat variabel dummy ini, kita dapat memilih salah satu nilai (“Male”) untuk mewakili 0 dan nilai lainnya (“Female”) untuk mewakili 1:
Cara membuat variabel dummy di Pandas
Untuk membuat dummies untuk variabel dalam pandas DataFrame, kita dapat menggunakan fungsi pandas.get_dummies() , yang menggunakan sintaks dasar berikut:
pandas.get_dummies(data, awalan=Tidak Ada, kolom=Tidak Ada, drop_first=False)
Emas:
- data : Nama panda DataFrame
- prefix : string yang akan ditambahkan ke awal kolom variabel dummy baru
- kolom : Nama kolom yang akan diubah menjadi variabel dummy
- drop_first : apakah akan menghapus kolom variabel dummy pertama atau tidak
Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya.
Contoh 1: Buat satu variabel dummy
Misalkan kita memiliki panda DataFrame berikut:
import pandas as pd #createDataFrame df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78], ' age ': [23, 25, 24, 29, 38, 36, 40], ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M']}) #view DataFrame df income age gender 0 45 23 M 1 48 25 F 2 54 24 M 3 57 29 F 4 65 38 F 5 69 36 F 6 78 40 M
Kita dapat menggunakan fungsi pd.get_dummies() untuk mengubah gender menjadi variabel dummy:
#convert gender to dummy variable p.d. get_dummies (df, columns=[' gender '], drop_first= True ) income age gender_M 0 45 23 1 1 48 25 0 2 54 24 1 3 57 29 0 4 65 38 0 5 69 36 0 6 78 40 1
Kolom gender sekarang menjadi variabel dummy dimana:
- Nilai 0 mewakili “Wanita”
- Nilai 1 mewakili “Pria”
Contoh 2: Buat beberapa variabel dummy
Misalkan kita memiliki panda DataFrame berikut:
import pandas as pd #createDataFrame df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78], ' age ': [23, 25, 24, 29, 38, 36, 40], ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M'], ' college ': ['Y', 'N', 'N', 'N', 'Y', 'Y', 'Y']}) #view DataFrame df income age gender college 0 45 23 M Y 1 48 25 F N 2 54 24 M N 3 57 29 F N 4 65 38 F Y 5 69 36 F Y 6 78 40 M Y
Kita dapat menggunakan fungsi pd.get_dummies() untuk mengubah gender dan perguruan tinggi menjadi variabel dummy:
#convert gender to dummy variable p.d. get_dummies (df, columns=[' gender ', ' college '], drop_first= True ) income age gender_M college_Y 0 45 23 1 1 1 48 25 0 0 2 54 24 1 0 3 57 29 0 0 4 65 38 0 1 5 69 36 0 1 6 78 40 1 1
Kolom gender sekarang menjadi variabel dummy dimana:
- Nilai 0 mewakili “Wanita”
- Nilai 1 mewakili “Pria”
Dan kolom perguruan tinggi sekarang menjadi variabel dummy dimana:
- Nilai 0 mewakili universitas “Tidak”.
- Nilai 1 mewakili “Ya” untuk perguruan tinggi
Sumber daya tambahan
Cara menggunakan variabel dummy dalam analisis regresi
Apa yang dimaksud dengan jebakan variabel dummy?