Stata'da çoklu bağlantı nasıl test edilir


Regresyon analizinde çoklu bağlantı, iki veya daha fazla açıklayıcı değişkenin regresyon modelinde benzersiz veya bağımsız bilgi sağlamayacak şekilde birbiriyle yüksek düzeyde korelasyona sahip olması durumunda ortaya çıkar. Değişkenler arasındaki korelasyon derecesi yeterince yüksekse, bu durum regresyon modelinin yerleştirilmesinde ve yorumlanmasında sorunlara neden olabilir.

Örneğin, aşağıdaki değişkenlerle çoklu doğrusal regresyon çalıştırdığınızı varsayalım:

Değişken yanıt: maksimum dikey sıçrama

Açıklayıcı değişkenler: ayakkabı numarası, boy, pratik yapmak için harcanan zaman

Bu durumda, açıklayıcı değişkenler ayakkabı numarası ve yüksekliği muhtemelen güçlü bir korelasyona sahiptir çünkü uzun boylu insanlar daha büyük ayakkabı numaralarına sahip olma eğilimindedir. Bu, çoklu doğrusallığın bu regresyonda bir sorun olabileceği anlamına gelir.

Neyse ki, bir regresyon modelinde açıklayıcı değişkenler arasındaki korelasyonu ve korelasyonun gücünü ölçen, varyans enflasyon faktörü (VIF) adı verilen bir ölçüm kullanarak çoklu doğrusallığı tespit etmek mümkündür.

Bu eğitimde, Stata’daki bir regresyon analizinde çoklu doğrusallığın tespit edilmesi için VIF’nin nasıl kullanılacağı açıklanmaktadır.

Örnek: Stata’da çoklu bağlantı

Bu örnek için Stata’nın auto adlı yerleşik veri kümesini kullanacağız. Veri kümesini yüklemek için aşağıdaki komutu kullanın:

otomatik olarak kullan

Yanıt değişkeni olarak fiyatı ve açıklayıcı değişkenler olarak ağırlık, uzunluk ve mpg’yi kullanarak çoklu doğrusal regresyon modeline uyum sağlamak için regress komutunu kullanacağız:

regresyon fiyat ağırlık uzunluk mpg

Stata'da çoklu doğrusal regresyon çıktısı

Daha sonra çoklu doğrusallığı test etmek için vive komutunu kullanacağız:

canlı

Stata'da VIF

Bu, modeldeki açıklayıcı değişkenlerin her biri için bir VIF değeri üretir. VIF değeri 1’den başlar ve üst sınırı yoktur. VIF’leri yorumlamanın genel kuralı şudur:

  • 1 değeri, belirli bir açıklayıcı değişken ile modeldeki diğer herhangi bir açıklayıcı değişken arasında bir korelasyon olmadığını gösterir.
  • 1 ile 5 arasındaki bir değer, belirli bir açıklayıcı değişken ile modeldeki diğer açıklayıcı değişkenler arasında orta düzeyde bir korelasyon olduğunu gösterir, ancak bu genellikle özel dikkat gerektirecek kadar şiddetli değildir.
  • 5’ten büyük bir değer, belirli bir açıklayıcı değişken ile modeldeki diğer açıklayıcı değişkenler arasında potansiyel olarak ciddi bir korelasyon olduğunu gösterir. Bu durumda regresyon sonuçlarındaki katsayı tahminleri ve p değerleri muhtemelen güvenilmez olacaktır.

Ağırlık ve uzunluk için VIF değerlerinin 5’ten büyük olduğunu görebiliyoruz, bu da regresyon modelinde çoklu doğrusallığın muhtemelen bir sorun olduğunu gösteriyor.

Çoklu bağlantı sorunuyla nasıl baş edilir

Çoğu zaman çoklu bağlantıyla başa çıkmanın en kolay yolu sorunlu değişkenlerden birini kaldırmaktır, çünkü kaldırdığınız değişken zaten muhtemelen gereksizdir ve modele çok az benzersiz veya bağımsız bilgi katmaktadır.

Hangi değişkenin kaldırılacağını belirlemek için, modeldeki değişkenlerin her biri arasındaki korelasyon katsayılarını görüntülemek üzere bir korelasyon matrisi oluşturmak için corr komutunu kullanabiliriz; bu, hangi değişkenlerin birbiriyle yüksek düzeyde ilişkili olabileceğini ve hangi değişkenlerin birbiriyle yüksek düzeyde ilişkili olabileceğini belirlememize yardımcı olabilir. Çoklu doğrusallık sorunu:

doğru fiyat ağırlık uzunluk mpg

Stata'daki korelasyon matrisi

Uzunluğun hem ağırlık hem de mpg ile yüksek düzeyde ilişkili olduğunu ve yanıt değişken fiyatıyla en düşük korelasyona sahip olduğunu görebiliriz. Dolayısıyla model uzunluğunun kaldırılması, regresyon modelinin genel kalitesini düşürmeden çoklu bağlantı sorununu çözebilir.

Bunu test etmek için açıklayıcı değişkenler olarak yalnızca ağırlık ve mpg’yi kullanarak regresyon analizini yeniden çalıştırabiliriz:

regresyon fiyat ağırlık mpg

Stata'da çoklu doğrusal regresyon çıktısı

Bu modelin düzeltilmiş R-karesinin önceki modeldeki 0,3298’e kıyasla 0,2735 olduğunu görebiliriz. Bu, modelin genel kullanışlılığının yalnızca biraz azaldığını gösterir. Daha sonra VIF komutunu kullanarak VIF değerlerini bulabiliriz:

CANLI

Stata'da VIF değerleri

Her iki VIF değerinin de 5’ten küçük olması, modelde çoklu doğrusallığın artık bir sorun olmadığını göstermektedir.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir