Regresyonda çoklu bağlantı ve vif kılavuzu


Regresyon analizinde çoklu doğrusallık, iki veya daha fazla yordayıcı değişkenin regresyon modelinde benzersiz veya bağımsız bilgi sağlamayacak şekilde birbiriyle yüksek düzeyde korelasyona sahip olması durumunda ortaya çıkar.

Değişkenler arasındaki korelasyon derecesi yeterince yüksekse, bu durum regresyon modelinin yerleştirilmesinde ve yorumlanmasında sorunlara neden olabilir.

Örneğin, maksimum dikey sıçrama tepkisi değişkenini ve aşağıdaki tahmin değişkenlerini kullanarak bir regresyon analizi yürüttüğünüzü varsayalım:

  • yükseklik
  • ayakkabı numarası
  • günde pratik yapmak için harcanan saatler

Bu durumda, uzun boylu insanlar daha büyük ayakkabı numaralarına sahip olma eğiliminde olduğundan, boy ve ayakkabı numarası muhtemelen yüksek oranda ilişkilidir. Bu, çoklu doğrusallığın bu regresyonda bir sorun olabileceği anlamına gelir.

Bu eğitimde çoklu bağlantının neden bir sorun olduğu, nasıl tespit edileceği ve nasıl düzeltileceği açıklanmaktadır.

Çoklu doğrusallık neden bir sorundur?

Regresyon analizinin temel amaçlarından biri, her yordayıcı değişken ile yanıt değişkeni arasındaki ilişkiyi izole etmektir.

Özellikle regresyon analizi yaptığımızda, modeldeki diğer tüm yordayıcı değişkenlerin sabit kaldığını varsayarak her bir regresyon katsayısını yanıt değişkenindeki ortalama değişim olarak yorumluyoruz.

Bu, belirli bir yordayıcı değişkenin değerlerini, diğer yordayıcı değişkenlerin değerlerini değiştirmeden değiştirebildiğimizi varsaydığımız anlamına gelir.

Bununla birlikte, iki veya daha fazla yordayıcı değişken yüksek düzeyde korelasyona sahip olduğunda, bir değişkeni değiştirmeden diğerini değiştirmek zorlaşır.

Bu, regresyon modelinin her bir yordayıcı değişken ile yanıt değişkeni arasındaki ilişkiyi bağımsız olarak tahmin etmesini zorlaştırır, çünkü yordayıcı değişkenler birlikte değişme eğilimindedir.

Çoklu doğrusallık genel olarak iki tür soruna yol açar:

  • Modelin katsayı tahminleri (ve hatta katsayıların işaretleri), modele dahil edilen diğer yordayıcı değişkenlere bağlı olarak önemli ölçüde dalgalanabilmektedir.
  • Katsayı tahminlerinin kesinliği azalarak p değerleri güvenilmez hale gelir. Bu, hangi yordayıcı değişkenlerin gerçekten istatistiksel olarak anlamlı olduğunu belirlemeyi zorlaştırır.

Çoklu bağlantı nasıl tespit edilir

Çoklu doğrusallığı tespit etmenin en yaygın yolu, bir regresyon modelinde yordayıcı değişkenler arasındaki korelasyonu ve korelasyonun gücünü ölçen varyans enflasyon faktörünü (VIF) kullanmaktır.

Varyans Enflasyon Faktörünün (VIF) Kullanılması

Çoğu istatistiksel yazılım, bir regresyon modeli için VIF’yi hesaplama yeteneğine sahiptir. VIF değeri 1’den başlar ve üst sınırı yoktur. VIF’leri yorumlamanın genel kuralı şudur:

  • 1 değeri, belirli bir yordayıcı değişken ile modeldeki diğer yordayıcı değişkenler arasında bir korelasyon olmadığını gösterir.
  • 1 ile 5 arasındaki bir değer, belirli bir yordayıcı değişken ile modeldeki diğer yordayıcı değişkenler arasında orta düzeyde bir korelasyon olduğunu gösterir, ancak bu genellikle özel dikkat gerektirecek kadar ciddi değildir.
  • 5’ten büyük bir değer, belirli bir yordayıcı değişken ile modeldeki diğer yordayıcı değişkenler arasında potansiyel olarak ciddi bir korelasyon olduğunu gösterir. Bu durumda regresyon sonuçlarındaki katsayı tahminleri ve p değerleri muhtemelen güvenilmez olacaktır.

Örneğin, basketbolcuların maksimum dikey sıçramasını tahmin etmek için boy , ayakkabı numarası ve günlük antrenmanda harcanan saat gibi belirleyici değişkenleri kullanarak bir regresyon analizi yaptığımızı ve aşağıdaki sonucu aldığımızı varsayalım:

Son sütunda, boy ve ayakkabı numarasına ilişkin VIF değerlerinin her ikisinin de 5’ten büyük olduğunu görebiliriz. Bu, muhtemelen çoklu doğrusallıktan muzdarip olduklarını ve katsayı tahminleri ile p değerlerinin muhtemelen güvenilmez olduğunu gösterir.

Ayakkabı numarasına ilişkin katsayı tahminine bakarsak, model bize ayakkabı numarasındaki her ilave birim artış için maksimum dikey sıçramadaki ortalama artışın -0,67498 inç olduğunu, boy ve antrenman saatlerinin sabit kaldığını varsayarak söyler.

Daha büyük ayakkabıları olan oyuncuların daha uzun olmasını ve dolayısıyla daha yüksek bir maksimum dikey sıçramaya sahip olmalarını beklediğimiz göz önüne alındığında, bu pek mantıklı görünmüyor.

Bu, katsayı tahminlerinin biraz uzak ve sezgisel olmayan görünmesine neden olan klasik bir çoklu bağlantı örneğidir.

Çoklu bağlantı nasıl çözülür?

Çoklu bağlantı tespit ederseniz bir sonraki adım, bunu bir şekilde çözmeniz gerekip gerekmediğine karar vermektir. Regresyon analizinizin amacına bağlı olarak çoklu doğrusallığı çözmeniz gerekmeyebilir.

Bilmek:

1. Yalnızca orta düzeyde çoklu bağlantı varsa, muhtemelen bunu herhangi bir şekilde çözmenize gerek kalmayacaktır.

2. Çoklu doğrusallık yalnızca birbiriyle ilişkili yordayıcı değişkenleri etkiler. Modelde çoklu bağlantı sorunu olmayan bir yordayıcı değişkenle ilgileniyorsanız, o zaman çoklu bağlantı sorun değildir.

3. Çoklu bağlantı, katsayı tahminlerini ve p değerlerini etkiler, ancak tahminleri veya uyum iyiliği istatistiklerini etkilemez. Bu, regresyondaki birincil amacınız tahminlerde bulunmaksa ve yordayıcı değişkenler ile yanıt değişkeni arasındaki kesin ilişkiyi anlamakla ilgilenmiyorsanız, çoklu bağlantının çözülmesine gerek olmadığı anlamına gelir.

Çoklu doğrusallığı düzeltmeniz gerektiğine karar verirseniz bazı yaygın çözümler şunlardır:

1. Yüksek derecede ilişkili değişkenlerden bir veya daha fazlasını kaldırın. Bu çoğu durumda en hızlı çözümdür ve genellikle kabul edilebilir bir çözümdür çünkü kaldırdığınız değişkenler zaten gereksizdir ve modele çok az benzersiz veya bağımsız bilgi katar.

2. Yordayıcı değişkenleri bir şekilde toplama veya çıkarma gibi doğrusal bir şekilde birleştirir. Bunu yaparak, her iki değişkenden gelen bilgileri kapsayan yeni bir değişken oluşturabilir ve artık çoklu bağlantı sorunu yaşamazsınız.

3. Temel bileşen analizi veya kısmi en küçük kareler (PLS) regresyonu gibi yüksek korelasyonlu değişkenleri hesaba katacak şekilde tasarlanmış bir analiz gerçekleştirin. Bu teknikler özellikle yüksek derecede ilişkili öngörücü değişkenleri ele almak için tasarlanmıştır.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir