Kısmi en küçük karelere giriş
Makine öğreniminde karşılaşacağınız en yaygın sorunlardan biri çoklu bağlantıdır . Bu, bir veri setindeki iki veya daha fazla öngörücü değişkenin yüksek düzeyde korelasyona sahip olması durumunda ortaya çıkar.
Bu olduğunda, bir model bir eğitim veri setine iyi uyum sağlayabilir, ancak eğitim veri setine fazla uyum sağladığı için daha önce görmediği yeni bir veri setinde düşük performans gösterebilir. Eğitim Seti.
Çoklu doğrusallık problemini aşmanın bir yolu, orijinal p tahmin değişkenlerinin M doğrusal kombinasyonunu (“temel bileşenler” olarak adlandırılır) hesaplayan ve daha sonra prensip kullanarak bir doğrusal regresyon modeline uymak için en küçük kareler yöntemini kullanan temel bileşenler regresyonunu kullanmaktır. tahmin edici olarak bileşenler.
Temel bileşen regresyonunun (PCR) dezavantajı, temel bileşenler hesaplanırken yanıt değişkenini dikkate almamasıdır.
Bunun yerine, yalnızca temel bileşenler tarafından yakalanan yordayıcı değişkenler arasındaki varyansın büyüklüğünü dikkate alır. Bu nedenle bazı durumlarda sapmaları en büyük olan temel bileşenlerin yanıt değişkenini iyi tahmin edememesi mümkündür.
PCR ile ilgili bir teknik, kısmi en küçük kareler olarak bilinir. Kısmi en küçük kareler, PCR’ye benzer şekilde, orijinal p tahmin değişkenlerinin M doğrusal kombinasyonunu (“PLS bileşenleri” olarak adlandırılır) hesaplar ve tahmin edici olarak PLS bileşenlerini kullanan doğrusal bir regresyon modeline uymak için en küçük kareler yöntemini kullanır.
Ancak PCR’den farklı olarak kısmi en küçük kareler, hem yanıt değişkenindeki hem de öngörücü değişkenlerdeki varyasyonu açıklayan doğrusal kombinasyonları bulmaya çalışır.
Kısmi En Küçük Kareler Gerçekleştirme Adımları
Uygulamada kısmi en küçük kareler gerçekleştirmek için aşağıdaki adımlar kullanılır.
1. Tüm yordayıcı değişkenlerin ve yanıt değişkeninin ortalaması 0 ve standart sapması 1 olacak şekilde verileri standartlaştırın. Bu, her değişkenin aynı ölçekte ölçülmesini sağlar.
2. Orijinal p tahmin edicilerinin M doğrusal kombinasyonları olarak Z 1 , … , Z M’yi hesaplayın.
- Z m = ΣΦ jm _
- Z 1’i hesaplamak için Φ j1’i , Y’nin X j üzerindeki basit doğrusal regresyonunun katsayısına eşit olarak ayarlayın; bu, mümkün olduğu kadar çok varyansı yakalayan tahmin edicilerin doğrusal birleşimidir.
- Z 2’yi hesaplamak için her değişkeni Z 1 üzerinde regresyonlayın ve artıkları alın. Daha sonra bu dikleştirilmiş verileri kullanarak Z 2’yi tam olarak Z 1’in hesaplandığı şekilde hesaplayın.
- M PLS bileşenlerini elde etmek için bu işlemi M kez tekrarlayın.
3. PLS bileşenlerini Z 1 , … , Z M’yi öngörücü olarak kullanarak doğrusal bir regresyon modeli uydurmak için en küçük kareler yöntemini kullanın.
4. Son olarak, modelde tutulacak en uygun PLS bileşeni sayısını bulmak için k-katlı çapraz doğrulamayı kullanın. Tutulması gereken “optimal” PLS bileşeni sayısı genellikle en düşük test ortalama kare hatasını (MSE) üreten sayıdır.
Çözüm
Bir veri setinde çoklu doğrusallığın mevcut olduğu durumlarda, kısmi en küçük kareler regresyonu, sıradan en küçük kareler regresyonundan daha iyi performans gösterme eğilimindedir. Ancak, hangisinin görünmeyen verilere en iyi şekilde genelleştirildiğini belirleyebilmeniz için birkaç farklı modele uymak iyi bir fikirdir.
Uygulamada, birçok farklı model türünü (PLS, PCR , Ridge , Lasso , Multiple Linear Regression , vb.) bir veri kümesine sığdırıyoruz ve MSE testini en iyi üreten modeli belirlemek için k-katlı çapraz doğrulamayı kullanıyoruz. yeni verilerde daha düşük. .