Temel bileşen regresyonuna giriş
Model oluştururken en sık karşılaşacağınız sorunlardan biri çoklu bağlantıdır . Bu, bir veri setindeki iki veya daha fazla öngörücü değişkenin yüksek düzeyde korelasyona sahip olması durumunda ortaya çıkar.
Bu gerçekleştiğinde, belirli bir model bir eğitim veri setine iyi uyum sağlayabilir, ancak eğitim setine gereğinden fazla uyum sağladığı için daha önce hiç görmediği yeni bir veri setinde muhtemelen kötü performans gösterecektir.
Aşırı uyumdan kaçınmanın bir yolu, aşağıdaki gibi bir tür alt küme seçim yöntemi kullanmaktır:
Bu yöntemler, ilgisiz öngörücüleri modelden çıkarmaya çalışır, böylece yalnızca yanıt değişkenindeki değişimi tahmin edebilen en önemli yordayıcılar son modelde kalır.
Aşırı uyumdan kaçınmanın başka bir yolu da aşağıdaki gibi bir tür düzenlileştirme yöntemi kullanmaktır:
Bu yöntemler, varyansı azaltmak için bir modelin katsayılarını kısıtlamaya veya düzenlemeye çalışır ve böylece yeni verilere iyi genelleme yapabilen modeller üretir.
Çoklu doğrusallıkla baş etmeye yönelik tamamen farklı bir yaklaşım, boyut indirgeme olarak bilinir.
Boyut azaltmanın yaygın bir yöntemi, temel bileşen regresyonu olarak bilinir ve şu şekilde çalışır:
1. Belirli bir veri setinin p tahmin edici içerdiğini varsayalım :
2. Z 1 , … , Z M’yi orijinal p tahmincilerinin M doğrusal kombinasyonları olarak hesaplayın.
- Z m = ΣΦ jm _
- Z 1 , mümkün olduğu kadar çok varyansı yakalayan tahmin edicilerin doğrusal birleşimidir.
- Z2, Z1’e dik (yani ilişkisiz) iken en fazla varyansı yakalayan tahmin edicilerin bir sonraki doğrusal kombinasyonudur.
- Bu durumda Z3, Z2’ye dik iken en fazla varyansı yakalayan tahmin edicilerin bir sonraki doğrusal kombinasyonudur.
- Ve benzeri.
3. İlk M temel bileşenleri Z 1 , …, Z M’yi yordayıcı olarak kullanarak doğrusal bir regresyon modelini uydurmak için en küçük kareler yöntemini kullanın.
Boyut azaltma terimi, bu yöntemin, M < p olduğu p+1 katsayıları yerine yalnızca M+1 katsayılarını tahmin etmesi gerektiği gerçeğinden kaynaklanmaktadır.
Yani sorunun boyutu p+1’den M+1’e düşürüldü.
Bir veri setinde çoklu doğrusallığın mevcut olduğu birçok durumda, temel bileşen regresyonu, yeni verilere geleneksel çoklu doğrusal regresyondan daha iyi genelleştirilebilen bir model üretebilir.
Temel Bileşen Regresyonunu Gerçekleştirme Adımları
Uygulamada, temel bileşenler regresyonunu gerçekleştirmek için aşağıdaki adımlar kullanılır:
1. Tahminleri standartlaştırın.
İlk olarak, tipik olarak verileri, her yordayıcı değişkenin ortalama değeri 0 ve standart sapması 1 olacak şekilde standartlaştırırız. Bu, özellikle farklı birimlerle ölçülüyorsa (c, yani 1 ise), bir yordayıcının çok fazla etkiye sahip olmasını engeller. inç cinsinden ölçülür). ve X2 yarda cinsinden ölçülür).
2. Temel bileşenleri hesaplayın ve temel bileşenleri yordayıcı olarak kullanarak doğrusal bir regresyon gerçekleştirin.
Daha sonra, temel bileşenleri hesaplıyoruz ve ilk M temel bileşenleri Z 1 , …, Z M’yi tahmin edici olarak kullanarak doğrusal bir regresyon modeline uymak için en küçük kareler yöntemini kullanıyoruz.
3. Kaç ana bileşenin tutulacağına karar verin.
Daha sonra, modelde tutulacak en uygun temel bileşen sayısını bulmak için k-katlı çapraz doğrulamayı kullanırız. Tutulması gereken “optimal” temel bileşen sayısı genellikle testin en düşük ortalama kare hatasını (MSE) üreten sayıdır.
Temel Bileşen Regresyonunun Avantajları ve Dezavantajları
Temel bileşen regresyonu (PCR) aşağıdaki avantajları sunar:
- PCR, ilk temel bileşenler, öngörücülerdeki varyasyonun çoğunu ve yanıt değişkeniyle ilişkiyi yakalayabildiğinde iyi performans gösterme eğilimindedir.
- PCR, öngörücü değişkenler yüksek derecede korelasyonlu olduğunda bile iyi performans gösterebilir çünkü birbirine dik (yani korelasyonsuz) temel bileşenler üretir.
- PCR, her temel bileşen tüm öngörücü değişkenlerin doğrusal bir kombinasyonunu kullandığından, modelden hangi öngörücü değişkenlerin çıkarılacağını seçmenizi gerektirmez.
- Çoklu doğrusal regresyonun aksine, PCR, gözlemlerden daha fazla öngörücü değişken olduğunda kullanılabilir.
Ancak PCR’nin bir dezavantajı vardır:
- PCR, hangi ana bileşenlerin tutulacağına veya çıkarılacağına karar verirken yanıt değişkenini dikkate almaz. Bunun yerine, yalnızca temel bileşenler tarafından yakalanan yordayıcı değişkenler arasındaki varyansın büyüklüğünü dikkate alır. Bazı durumlarda en büyük farklara sahip temel bileşenlerin yanıt değişkenini iyi tahmin edememesi mümkündür.
Uygulamada, birçok farklı model türünü (PCR, Ridge, Lasso, çoklu doğrusal regresyon vb.) yerleştiririz ve yeni veriler üzerinde en düşük MSE testini üreten modeli belirlemek için k-katlı çapraz doğrulamayı kullanırız.
Orijinal veri setinde çoklu bağlantının mevcut olduğu durumlarda (ki bu genellikle böyledir), PCR sıradan en küçük kareler regresyonundan daha iyi performans gösterme eğilimindedir. Ancak, hangisinin görünmeyen verilere en iyi şekilde genelleştirildiğini belirleyebilmeniz için birkaç farklı modele uymak iyi bir fikirdir.
Ar-Ge ve Python’da Temel Bileşen Regresyonu
Aşağıdaki eğitimler R ve Python’da temel bileşen regresyonunun nasıl gerçekleştirileceğini göstermektedir:
R’de Temel Bileşen Regresyon (Adım Adım)
Python’da Temel Bileşen Regresyon (Adım Adım)