İhmal edilen değişken önyargısı: tanım ve örnekler


İhmal edilen değişken yanlılığı, ilgili bir açıklayıcı değişkenin birregresyon modeline dahil edilmemesi durumunda ortaya çıkar; bu durum, modeldeki bir veya daha fazla açıklayıcı değişkenin katsayısında bir yanlılığa neden olabilir.

İhmal edilen bir değişken genellikle iki nedenden dolayı regresyon modelinden çıkarılır:

1. Değişkene ilişkin veriler mevcut değildir.

2. Açıklayıcı değişkenin yanıt değişkeni üzerindeki etkisi bilinmemektedir.

Çıkarılan değişkenin model katsayılarını gerçekten bozması için aşağıdaki iki koşulun karşılanması gerekir:

1. Çıkarılan değişken, modeldeki bir veya daha fazla açıklayıcı değişkenle ilişkilendirilmelidir.

2. Çıkarılan değişken, modeldeki yanıt değişkeni ile ilişkilendirilmelidir.

İhmal edilen değişken önyargının etkileri

İki açıklayıcı değişkenimiz (A ve B) ve bir yanıt değişkenimiz (Y) olduğunu varsayalım. A’yı tek açıklayıcı değişken olarak basit bir doğrusal regresyon modeline uydurduğumuzu ve B’yi modelin dışında bıraktığımızı varsayalım.

Eğer B, A ile ve Y ile korele ise, bu, A’nın katsayısının tahmininde bir yanlılığa yol açacaktır. Aşağıdaki diyagram, A’nın katsayısının tahmininin, ile ilişkinin niteliğine bağlı olarak, nasıl yanlı olacağını göstermektedir. B:

İhmal edilen değişken önyargı

Örnek: ihmal edilen değişken önyargı

Metrekarenin gayrimenkul fiyatı üzerindeki etkisini incelemek istediğimizi ve bu nedenle aşağıdaki basit doğrusal regresyon modelini uyguladığımızı varsayalım:

Ev fiyatı = B 0 + B 1 (kare alan)

Tahmin edilen modelin şu şekilde olduğunu bulduğumuzu varsayalım:

Ev fiyatı = 40.203,91 + 118,31 (kare alan)

Metrekare katsayısını yorumlama şeklimiz , metrekaredeki her bir birimlik ilave artışın, ev fiyatında ortalama 118,31 dolarlık bir artışla ilişkili olduğudur.

Bununla birlikte, metrekare ile güçlü bir negatif korelasyona ve gayrimenkul fiyatı ile güçlü bir negatif korelasyona sahip olduğu ortaya çıkan açıklayıcı yaş değişkenini dışarıda bıraktığımızı varsayalım. Bu değişkenin modelde olması gerekir ama yok. Bu nedenle, metrekareye ilişkin katsayı tahmini muhtemelen taraflıdır.

Yaş , modeldeki hem açıklayıcı hem de yanıt değişkeniyle negatif ilişkili olduğundan, metrekareye ilişkin katsayı tahmininin pozitif taraflı olmasını bekliyoruz:

İhmal edilen değişken önyargılı pozitif önyargı

Diyelim ki konutun yaşı ile ilgili veriler bulduk ve bunu modele dahil ettik. Model daha sonra şu hale gelir:

Ev fiyatı = B 0 + B 1 (kare alanı) + B 2 (yaş)

Tahmin edilen modelin şu şekilde olduğunu bulduğumuzu varsayalım:

Ev fiyatı = 123.426,20 + 81,06 (alan kare) – 1.291,04 (yaş)

Metrekare için katsayı tahmininin önemli ölçüde azaldığını, yani önceki modelde pozitif taraflı olduğunu unutmayın.

Bu modelde metrekare katsayısını yorumlama şeklimiz , metrekaredeki her bir birimlik ilave artışın, yaşın sabit kaldığı varsayılarak ortalama 81,06 $’lık ev fiyatı artışıyla ilişkili olduğudur.

İhmal edilen değişken önyargı konusunda ne yapılmalı

Ne yazık ki, ihmal edilen değişken yanlılığı gerçek dünyada sıklıkla meydana gelir çünkü belirli değişkenlerin genellikle bir regresyon modeline dahil edilmesi gerekir , ancak bunlar için verilerin mevcut olmaması veya bunlar ile yanıt değişkeni arasındaki ilişkinin bilinmemesi nedeniyle değildir.

Mümkünse, açıklayıcı değişkenler ile yanıt değişkeni arasındaki gerçek ilişkiyi anlayabilmeniz için ilgili tüm açıklayıcı değişkenleri bir regresyon modeline dahil etmeye çalışmalısınız.

İlgili açıklayıcı değişkenlerin bir modelden hariç tutulması, önceki emlak fiyatları örneğinde gördüğümüz gibi, modelin yorumunu önemli ölçüde etkileyebilir.

Ek kaynaklar

Gizli değişken nedir?
Kafa karıştırıcı değişken nedir?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir