Pengantar analisis diskriminan linier
Ketika kita memiliki sekumpulan variabel prediktor dan ingin mengklasifikasikan variabel respons ke dalam salah satu dari dua kelas, biasanya kita menggunakan regresi logistik .
Misalnya, kita dapat menggunakan regresi logistik dalam skenario berikut:
- Kami ingin menggunakan skor kredit dan saldo bank untuk memprediksi apakah pelanggan tertentu akan gagal membayar pinjaman. (Variabel respons = “Default” atau “Tidak ada default”)
Namun, ketika variabel respon mempunyai lebih dari dua kemungkinan kelas, kita umumnya lebih suka menggunakan metode yang dikenal sebagai analisis diskriminan linier , yang sering disebut LDA.
Misalnya, kita dapat menggunakan LDA dalam skenario berikut:
- Kami ingin menggunakan poin per game dan rebound per game untuk memprediksi apakah pemain bola basket sekolah menengah tertentu akan diterima di salah satu dari tiga sekolah: Divisi 1, Divisi 2, atau Divisi 3.
Meskipun model LDA dan regresi logistik digunakan untuk klasifikasi , ternyata LDA jauh lebih stabil daripada regresi logistik ketika membuat prediksi untuk beberapa kelas dan oleh karena itu merupakan algoritma yang lebih disukai untuk digunakan ketika variabel respons dapat mengambil lebih dari dua kelas.
LDA juga berfungsi paling baik ketika ukuran sampel kecil dibandingkan dengan regresi logistik, menjadikannya metode yang disukai ketika Anda tidak dapat mengumpulkan sampel dalam jumlah besar.
Cara membuat model LDA
LDA membuat asumsi berikut pada kumpulan data tertentu:
(1) Nilai setiap variabel prediktor berdistribusi normal . Artinya, jika kita membuat histogram untuk memvisualisasikan distribusi nilai untuk prediktor tertentu, histogram tersebut secara kasar akan berbentuk “lonceng”.
(2) Setiap variabel prediktor mempunyai varians yang sama. Hal ini hampir tidak pernah terjadi pada data di dunia nyata, itulah sebabnya kami biasanya menskalakan setiap variabel agar memiliki mean dan varians yang sama sebelum benar-benar menyesuaikan model LDA.
Setelah hipotesis ini diverifikasi, LDA kemudian memperkirakan nilai-nilai berikut:
- μ k : Rata-rata seluruh observasi latihan kelas k .
- σ 2 : Rata-rata tertimbang varians sampel untuk masing-masing kelas k .
- π k : Proporsi observasi latihan yang dimiliki kelas k .
LDA kemudian memasukkan angka-angka ini ke dalam rumus berikut dan menugaskan setiap observasi X = x ke kelas yang rumusnya menghasilkan nilai terbesar:
d k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + log(π k )
Perhatikan bahwa LDA memiliki nama linier karena nilai yang dihasilkan oleh fungsi di atas berasal dari hasil fungsi linier x.
Bagaimana mempersiapkan data untuk LDA
Pastikan data Anda memenuhi persyaratan berikut sebelum menerapkan model LDA ke dalamnya:
1. Variabel respon bersifat kategorikal . Model LDA dirancang untuk digunakan pada masalah klasifikasi, yaitu variabel respon dapat ditempatkan ke dalam kelas atau kategori.
2. Variabel prediktor mengikuti distribusi normal . Pertama, verifikasi bahwa setiap variabel prediktor berdistribusi normal. Jika tidak, Anda dapat memilih untuk mengubah data terlebih dahulu agar distribusinya lebih normal.
3. Setiap variabel prediktor mempunyai variansi yang sama . Seperti yang telah disebutkan sebelumnya, LDA mengasumsikan bahwa setiap variabel prediktor memiliki varian yang sama. Karena hal ini jarang terjadi dalam praktiknya, sebaiknya skalakan setiap variabel dalam kumpulan data sedemikian rupa sehingga memiliki rata-rata 0 dan deviasi standar 1.
4. Perhitungkan outlier ekstrim. Pastikan untuk memeriksa outlier ekstrem dalam kumpulan data sebelum menerapkan LDA. Biasanya, Anda dapat memeriksa outlier secara visual hanya dengan menggunakan plot kotak atau plot sebar.
Contoh penggunaan analisis diskriminan linier
Model LDA diterapkan di berbagai domain dalam kehidupan nyata. Berikut beberapa contohnya:
1. Pemasaran . Perusahaan ritel sering menggunakan LDA untuk mengklasifikasikan pembeli ke dalam salah satu dari beberapa kategori. Misalnya, mereka dapat membuat model LDA untuk memprediksi apakah pembeli tertentu akan termasuk dalam kelompok pembelanja rendah, sedang, atau tinggi menggunakan variabel prediktor seperti pendapatan , total pengeluaran tahunan, dan ukuran rumah tangga .
2. Medis . Rumah sakit dan tim peneliti medis sering menggunakan LDA untuk memprediksi apakah sekelompok sel abnormal tertentu cenderung menyebabkan penyakit ringan, sedang, atau berat.
3. Pengembangan produk . Perusahaan dapat membuat model LDA untuk memprediksi apakah konsumen tertentu akan menggunakan produknya setiap hari, mingguan, bulanan, atau tahunan, berdasarkan berbagai variabel prediktor seperti jenis kelamin , pendapatan tahunan , dan frekuensi penggunaan produk serupa .
4. Ekologi. Para peneliti dapat membuat model LDA untuk memprediksi apakah terumbu karang tertentu akan memiliki kesehatan keseluruhan yang baik, sedang, buruk, atau terancam punah, berdasarkan berbagai variabel prediktor seperti ukuran , kontaminasi tahunan , dan kehilangan . usia .
LDA dalam R dan Python
Tutorial berikut memberikan contoh langkah demi langkah tentang cara melakukan analisis diskriminan linier dalam R dan Python:
Analisis Diskriminan Linier di R (langkah demi langkah)
Analisis Diskriminan Linier dengan Python (Langkah demi Langkah)