Pengantar analisis diskriminan kuadrat


Ketika kita memiliki sekumpulan variabel prediktor dan ingin mengklasifikasikan variabel respons ke dalam salah satu dari dua kelas, biasanya kita menggunakan regresi logistik .

Namun, ketika variabel respon mempunyai lebih dari dua kemungkinan kelas, kita biasanya menggunakan analisis diskriminan linier , yang sering disebut LDA.

LDA mengasumsikan bahwa (1) observasi di setiap kelas berdistribusi normal dan (2) observasi di setiap kelas memiliki matriks kovarians yang sama. Dengan menggunakan asumsi ini, LDA kemudian menemukan nilai-nilai berikut:

  • μ k : Rata-rata seluruh observasi latihan pada kelas ke- k .
  • σ 2 : Rata-rata tertimbang varians sampel untuk masing-masing kelas k .
  • π k : Proporsi observasi latihan yang dimiliki kelas ke- k .

LDA kemudian memasukkan angka-angka ini ke dalam rumus berikut dan menugaskan setiap observasi X = x ke kelas yang rumusnya menghasilkan nilai terbesar:

d k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

LDA mempunyai nama linier karena nilai yang dihasilkan fungsi di atas berasal dari hasil fungsi linier x.

Perpanjangan dari analisis diskriminan linier adalah analisis diskriminan kuadrat , sering disebut QDA.

Metode ini mirip dengan LDA dan juga mengasumsikan bahwa observasi setiap kelas berdistribusi normal, namun tidak mengasumsikan bahwa setiap kelas memiliki matriks kovarians yang sama. Sebaliknya, QDA mengasumsikan bahwa setiap kelas memiliki matriks kovariansnya sendiri.

Dengan kata lain, diasumsikan observasi kelas k berbentuk X ~ N(μ k , Σ k ).

Dengan menggunakan asumsi ini, QDA kemudian menemukan nilai-nilai berikut:

  • μ k : Rata-rata seluruh observasi latihan kelas k .
  • Σ k : Matriks kovarians kelas ke-k .
  • π k : Proporsi observasi latihan yang dimiliki kelas ke- k .

QDA kemudian memasukkan angka-angka ini ke dalam rumus berikut dan menugaskan setiap observasi X = x ke kelas yang rumusnya menghasilkan nilai terbesar:

D k (x) = -1/2*(x-μ k ) T Σ k -1 (x-μ k ) – 1/2*log|Σ k | + catatan( πk )

Perhatikan bahwa QDA memiliki nama kuadrat karena nilai yang dihasilkan oleh fungsi di atas berasal dari hasil fungsi kuadrat x.

LDA vs QDA: Kapan Menggunakan Salah Satunya

Perbedaan utama antara LDA dan QDA adalah LDA mengasumsikan bahwa setiap kelas berbagi matriks kovarians, menjadikannya pengklasifikasi yang kurang fleksibel dibandingkan QDA.

Hal ini berarti bahwa ia memiliki variansi yang rendah, yaitu ia akan melakukan hal yang sama pada kumpulan data pelatihan yang berbeda. Kelemahannya adalah jika asumsi bahwa kelas K memiliki kovarians yang sama salah, maka LDA mungkin mengalami bias yang tinggi .

QDA umumnya lebih disukai daripada LDA dalam situasi berikut:

(1) Set pelatihannya besar.

(2) Kecil kemungkinannya kelas K memiliki matriks kovarians yang sama.

Jika kondisi tersebut terpenuhi, QDA cenderung berkinerja lebih baik karena lebih fleksibel dan dapat beradaptasi dengan data dengan lebih baik.

Bagaimana mempersiapkan data untuk QDA

Pastikan data Anda memenuhi persyaratan berikut sebelum menerapkan model QDA ke dalamnya:

1. Variabel respon bersifat kategorikal . Model QDA dirancang untuk digunakan pada masalah klasifikasi , yaitu ketika variabel respon dapat ditempatkan ke dalam kelas atau kategori.

2. Observasi pada setiap kelas mengikuti distribusi normal . Pertama, periksa apakah distribusi nilai di setiap kelas kira-kira terdistribusi normal. Jika tidak, Anda dapat memilih untuk mengubah data terlebih dahulu agar distribusinya lebih normal.

3. Perhitungkan outlier ekstrim. Pastikan untuk memeriksa outlier ekstrem dalam kumpulan data sebelum menerapkan LDA. Biasanya, Anda dapat memeriksa outlier secara visual hanya dengan menggunakan plot kotak atau plot sebar.

QDA dalam R dan Python

Tutorial berikut memberikan contoh langkah demi langkah tentang cara melakukan analisis diskriminan kuadrat dalam R dan Python:

Analisis Diskriminan Kuadrat dalam R (langkah demi langkah)
Analisis Diskriminan Kuadrat dengan Python (Langkah demi Langkah)

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *