Doğrusal diskriminant analizine giriş


Bir dizi öngörücü değişkenimiz olduğunda ve bir yanıt değişkenini iki sınıftan birine sınıflandırmak istediğimizde genelliklelojistik regresyon kullanırız.

Örneğin lojistik regresyonu aşağıdaki senaryoda kullanabiliriz:

  • Belirli bir müşterinin bir kredide temerrüde düşüp düşmeyeceğini tahmin etmek için kredi puanı ve banka bakiyesini kullanmak istiyoruz. (Yanıt değişkeni = “Varsayılan” veya “Varsayılan yok”)

Bununla birlikte, bir yanıt değişkeni ikiden fazla olası sınıfa sahip olduğunda, genellikle LDA olarak adlandırılan, doğrusal diskriminant analizi olarak bilinen bir yöntemi kullanmayı tercih ederiz.

Örneğin LDA’yı aşağıdaki senaryoda kullanabiliriz:

  • Belirli bir lise basketbol oyuncusunun üç okuldan birine kabul edilip edilmeyeceğini tahmin etmek için maç başına puan ve maç başına ribaund kullanmak istiyoruz: Division 1, Division 2 veya Division 3.

Sınıflandırma için hem LDA hem de lojistik regresyon modelleri kullanılsa da, çoklu sınıflar için tahminler yapma söz konusu olduğunda LDA’nın lojistik regresyondan çok daha kararlı olduğu ve bu nedenle yanıt değişkeninin ikiden fazla zaman alabileceği durumlarda kullanılması tercih edilen algoritma olduğu ortaya çıktı. sınıflar.

LDA ayrıca lojistik regresyona kıyasla numune boyutları küçük olduğunda en iyi şekilde çalışır; bu da onu büyük numuneler toplayamadığınız durumlarda tercih edilen bir yöntem haline getirir.

LDA modelleri nasıl oluşturulur?

LDA belirli bir veri kümesi üzerinde aşağıdaki varsayımları yapar:

(1) Her yordayıcı değişkenin değerleri normal olarak dağıtılır . Yani, belirli bir tahminci için değerlerin dağılımını görselleştirmek için bir histogram oluştursaydık, kabaca bir “çan şekline” sahip olurdu.

(2) Her yordayıcı değişken aynı varyansa sahiptir. Bu, gerçek dünya verilerinde neredeyse hiçbir zaman geçerli değildir; bu nedenle, aslında bir LDA modeline uymadan önce genellikle her değişkeni aynı ortalamaya ve varyansa sahip olacak şekilde ölçeklendiririz.

Bu hipotezler doğrulandıktan sonra LDA aşağıdaki değerleri tahmin eder:

  • μ k : K’inci sınıfın tüm eğitim gözlemlerinin ortalaması.
  • σ 2 : Her k sınıfı için örnek varyansların ağırlıklı ortalaması.
  • π k : K’inci sınıfa ait eğitim gözlemlerinin oranı.

LDA daha sonra bu sayıları aşağıdaki formüle yerleştirir ve her X = x gözlemini formülün en büyük değeri ürettiği sınıfa atar:

d k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

Yukarıdaki fonksiyon tarafından üretilen değer x’in doğrusal fonksiyonlarının sonucundan geldiğinden, LDA’nın adında doğrusal olduğuna dikkat edin.

LDA için veriler nasıl hazırlanır?

Verilerinize bir LDA modeli uygulamadan önce aşağıdaki gereksinimleri karşıladığından emin olun:

1. Yanıt değişkeni kategoriktir . LDA modelleri, yanıt değişkeninin sınıflara veya kategorilere yerleştirilebildiği sınıflandırma problemlerinde kullanılmak üzere tasarlanmıştır.

2. Yordayıcı değişkenler normal bir dağılım izlemektedir . İlk olarak, her yordayıcı değişkenin yaklaşık olarak normal dağıldığını doğrulayın. Değilse, dağılımı daha normal hale getirmek için önce verileri dönüştürmeyi seçebilirsiniz.

3. Her yordayıcı değişken aynı varyansa sahiptir . Daha önce de belirtildiği gibi LDA, her yordayıcı değişkenin aynı varyansa sahip olduğunu varsayar. Uygulamada bu durum nadiren söz konusu olduğundan, veri kümesindeki her değişkenin ortalaması 0 ve standart sapması 1 olacak şekilde ölçeklendirilmesi iyi bir fikirdir.

4. Aşırı aykırı değerleri hesaba katın. LDA’yı uygulamadan önce veri kümesindeki aşırı aykırı değerleri kontrol ettiğinizden emin olun. Tipik olarak, yalnızca kutu grafiklerini veya dağılım grafiklerini kullanarak aykırı değerleri görsel olarak kontrol edebilirsiniz.

Doğrusal diskriminant analizinin kullanımına örnekler

LDA modelleri gerçek hayatta çok çeşitli alanlarda uygulanmaktadır. İşte bazı örnekler:

1. Pazarlama . Perakende şirketleri, alışveriş yapanları çeşitli kategorilerden birine sınıflandırmak için sıklıkla LDA’yı kullanır. Örneğin, belirli bir alıcının düşük, orta veya yüksek harcama yapanlardan olup olmayacağını gelir, toplam yıllık harcama ve hane halkı büyüklüğü gibi tahmin değişkenlerini kullanarak tahmin etmek için bir LDA modeli oluşturabilirler.

2.Tıp . Hastaneler ve tıbbi araştırma ekipleri, belirli bir anormal hücre grubunun hafif, orta veya şiddetli hastalığa yol açma ihtimalinin olup olmadığını tahmin etmek için sıklıkla LDA’yı kullanır.

3. Ürün geliştirme . Şirketler, belirli bir tüketicinin ürününü günlük, haftalık, aylık veya yıllık olarak kullanıp kullanmayacağını cinsiyet , yıllık gelir ve benzer ürünleri kullanma sıklığı gibi çeşitli belirleyici değişkenlere dayalı olarak tahmin etmek için LDA modelleri oluşturabilir.

4. Ekoloji. Araştırmacılar, büyüklük , yıllık kirlenme ve kayıp gibi çeşitli belirleyici değişkenlere dayanarak belirli bir mercan resifinin genel sağlığının iyi mi, orta düzeyde mi, kötü mü yoksa tehlike altında mı olacağını tahmin etmek için LDA modelleri oluşturabilirler. yaş .

R ve Python’da LDA

Aşağıdaki eğitimlerde, R ve Python’da doğrusal diskriminant analizinin nasıl gerçekleştirileceğine ilişkin adım adım örnekler verilmektedir:

R’de Doğrusal Diskriminant Analizi (adım adım)
Python’da Doğrusal Diskriminant Analizi (Adım Adım)

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir