Çoklu bağlantı

Bu makale istatistikte çoklu doğrusallığın ne olduğunu açıklamaktadır. Böylece çoklu bağlantının ne zaman ortaya çıktığını, çoklu bağlantının sonuçlarının neler olduğunu, çoklu bağlantının nasıl tanımlanacağını ve son olarak bu sorunun nasıl çözüleceğini öğreneceksiniz.

Çoklu doğrusallık nedir?

Çoklu doğrusallık , bir regresyon modelinde iki veya daha fazla açıklayıcı değişkenin yüksek korelasyona sahip olması durumunda ortaya çıkan bir durumdur. Başka bir deyişle, bir regresyon modelinde, modeldeki iki veya daha fazla değişken arasındaki ilişki çok güçlü olduğunda çoklu doğrusallık söz konusudur.

Örneğin, bir ülkenin yaşam beklentisini nüfus büyüklüğü ve GSYİH ile ilişkilendiren bir regresyon modeli çalıştırırsak, bu iki Değişken genellikle güçlü bir korelasyona sahip olduğundan, nüfus büyüklüğü ile GSYİH arasında çoklu doğrusallık kesinlikle meydana gelecektir. korele. Bu nedenle her değişkenin yaşam beklentisi üzerindeki etkisini analiz etmek zor olacaktır.

Mantıksal olarak bir modeldeki değişkenler her zaman birbiriyle ilişkili olacaktır; yalnızca pastoral bir süreçte değişkenler arasında korelasyonsuzluk meydana gelir. Ancak bizi ilgilendiren değişkenler arasındaki korelasyonun düşük olmasıdır, aksi takdirde her açıklayıcı değişkenin yanıt değişkeni üzerindeki etkisini bilemeyiz.

Çoklu doğrusallığın ana nedenleri genellikle örneklemin küçüklüğü, açıklayıcı değişkenler arasında nedensel bir ilişkinin varlığı veya gözlemlerin değişkenliğinin düşük olmasıdır.

Çoklu bağlantı türleri

İki tür çoklu bağlantı vardır:

  • Tam çoklu doğrusallık : Bir veya daha fazla değişkenin diğer değişkenlerin doğrusal birleşimi olması durumudur. Bu durumda çoklu doğrusal değişkenler arasındaki korelasyon katsayısı 1’e eşittir.
  • Yaklaşık çoklu doğrusallık : Değişkenler arasında doğrusal bir kombinasyon yoktur, ancak iki veya daha fazla değişken arasındaki belirleme katsayısı 1’e çok yakındır ve bu nedenle yüksek korelasyona sahiptirler.

Çoklu bağlantının sonuçları

  • İlişkili değişkenler eklendiğinde modelin regresyon katsayılarının değeri değişerek ortaya çıkan regresyon modelinin yorumlanmasını zorlaştırır.
  • Parametre tahmininin kesinliği azalır, dolayısıyla regresyon katsayılarının standart hatası artar.
  • Çoklu bağlantıya neden olan değişkenlerden bazıları kesinlikle gereksizdir ve bu nedenle bunların modele dahil edilmesine gerek yoktur.
  • Muhtemelen aşırı uyum durumuna düşmeniz, yani modelin aşırı uyum sağlaması ve bu nedenle tahmin yapmak için kullanışlı olmamasıdır.
  • Regresyon katsayılarının p değerleri daha az güvenilir hale gelir. Bu nedenle regresyon modeline hangi değişkenlerin dahil edileceğini ve hangi değişkenlerin çıkarılacağını belirlemek daha zordur.

Çoklu bağlantı nasıl tespit edilir

Çoklu doğrusallığı tanımlamanın bir yolu korelasyon matrisini hesaplamaktır , çünkü bu matris tüm değişkenler arasındaki korelasyon katsayısını içerir ve dolayısıyla bir değişken çiftinin yüksek düzeyde korelasyona sahip olup olmadığı gözlemlenebilir.

Bakınız: Korelasyon matrisi

Ancak korelasyon matrisi ile yalnızca iki değişkenin birbiriyle ilişkili olup olmadığını bilebilirsiniz ancak bir dizi değişken arasında bir kombinasyon olup olmadığını bilemezsiniz. Bunu yapmak için genellikle varyans enflasyon faktörü hesaplanır.

Varyans enflasyon faktörü (VIF) olarak da adlandırılan varyans enflasyon faktörü (VIF) , her açıklayıcı değişken için hesaplanan istatistiksel bir katsayıdır ve diğer değişkenlerin belirli bir açıklayıcı değişkenle korelasyonunu gösterir. Somut olarak formülü şu şekildedir:

FIV_i=\cfrac{1}{1-R_i^2}

Altın

FIV_i

iy değişkeninin varyansının enflasyon faktörüdür

R_i^2

i değişkeninin bağımlı değişken, geri kalan değişkenlerin ise bağımsız değişken olduğu regresyon modelinin belirlenme katsayısıdır .

Böylece elde edilen varyans enflasyon faktörlerinin değerine bağlı olarak çoklu doğrusallığın olup olmadığını bilmek mümkündür:

  • VIF = 1 : Varyans enflasyon faktörünün 1’e eşit olması bağımlı değişken ile diğer değişkenler arasında korelasyon olmadığı anlamına gelir.
  • 1 < IVF < 5 : Değişkenler arasında korelasyon vardır ancak orta düzeydedir. Prensip olarak çoklu bağlantının düzeltilmesi için herhangi bir işlem yapılmasına gerek yoktur.
  • VIF > 5 : Varyans enflasyon faktörünün 1’den büyük olması, modelin çoklu doğrusallığının yüksek olduğu ve bu nedenle çözümlenmeye çalışılması gerektiği anlamına gelir.

Uygulamada varyans enflasyon faktörleri genellikle bilgisayar yazılımı kullanılarak hesaplanır, çünkü her değişken için bir regresyon modeli oluşturmak ve daha sonra katsayı değerini manuel olarak bulmak uzun zaman alır.

Doğru çoklu bağlantı

Bir regresyon modelinde çoklu bağlantı sorunlarının çözümünde aşağıdaki önlemler yararlı olabilir:

  • Örnek boyutu küçükse, veri sayısını artırmak yaklaşık çoklu doğrusallığı azaltabilir.
  • Çoklu bağlantı oluşturan tüm değişkenleri kaldırın. Değişkenler yüksek korelasyona sahipse modelde çok az bilgi kaybolacak ve çoklu bağlantı azalacaktır.
  • Kısmi en küçük kareler (PLS) kriterini uygulayarak regresyon modelini oluşturun.
  • Bazen regresyon modelini çoklu bağlantıyla olduğu gibi bırakabilirsiniz. Örneğin, sadece tahmin yapmak için bir model oluşturmak istiyorsak ve onu yorumlamamıza gerek yoksa, çoklu bağlantı modelinin kendini tekrarladığını varsayarak, model denklemini kullanarak bağımlı değişkenin değerini yeni bir gözlemle tahmin edebiliriz. yeni gözlemlerde.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir