Regresyon modellerinde anlamlı değişkenler nasıl belirlenir?
Çoklu doğrusal regresyon modelini uyguladıktan sonra kendinize soracağınız ana sorulardan biri şudur: Hangi değişkenler anlamlıdır?
Bir değişkenin anlamını belirlemek için kullanmamanız gereken iki yöntem vardır:
1. Regresyon katsayılarının değeri
Belirli bir yordayıcı değişken için bir regresyon katsayısı, söz konusu yordayıcı değişkendeki bir birimlik artışla ilişkili yanıt değişkenindeki ortalama değişikliği belirtir.
Ancak bir modeldeki her yordayıcı değişken genellikle farklı bir ölçekte ölçülür. Bu nedenle hangi değişkenlerin en önemli olduğunu belirlemek için regresyon katsayılarının mutlak değerlerini karşılaştırmak mantıklı değildir.
2. Regresyon katsayılarının p değerleri
Regresyon katsayılarının p değerleri, belirli bir yordayıcı değişkenin yanıt değişkeniyle istatistiksel olarak anlamlı bir ilişkiye sahip olup olmadığını size söyleyebilir, ancak belirli bir yordayıcı değişkenin gerçek dünyada pratik olarak anlamlı olup olmadığını size söyleyemez.
P değerleri aynı zamanda örneklem büyüklüğünün büyük olması veya değişkenliğin düşük olması nedeniyle de düşük olabilir; bu durum bize aslında belirli bir yordayıcı değişkenin pratikte anlamlı olup olmadığını söylemez.
Ancak değişkenlerin anlamını belirlemek için kullanmanız gereken iki yöntem vardır:
1. Standartlaştırılmış regresyon katsayıları
Tipik olarak, çoklu doğrusal regresyon uyguladığımızda, model çıktısında elde edilen regresyon katsayıları standartlaştırılmaz , yani en uygun çizgiyi bulmak için ham verileri kullanırlar.
Bununla birlikte, her öngörücü değişkeni ve yanıt değişkenini standartlaştırmak (her değişkenin ortalama değerini orijinal değerlerden çıkararak ve ardından bunu değişkenlerin standart sapmasına bölerek) ve ardından bir regresyon çalıştırmak mümkündür; bu da şu sonucu verir: standartlaştırılmış regresyon katsayıları .
Modeldeki her değişken standartlaştırılarak her değişken aynı ölçekte ölçülür. Bu nedenle, hangi değişkenlerin yanıt değişkeni üzerinde en büyük etkiye sahip olduğunu anlamak için sonuçlardaki regresyon katsayılarının mutlak değerlerini karşılaştırmak mantıklıdır.
2. Konu Uzmanlığı
Her ne kadar p değerleri size belirli bir yordayıcı değişken ile yanıt değişkeni arasında istatistiksel olarak anlamlı bir etkinin olup olmadığını söyleyebilse de, bir yordayıcı değişkenin gerçekten alakalı olup olmadığını ve gerçekten bir modele dahil edilmesi gerekip gerekmediğini doğrulamak için konu uzmanlığına ihtiyaç vardır.
Aşağıdaki örnek, pratikte bir regresyon modelinde anlamlı değişkenlerin nasıl belirleneceğini göstermektedir.
Örnek: Bir regresyon modelinde önemli değişkenler nasıl belirlenir?
12 evin yaşı, metrekaresi ve satış fiyatına ilişkin bilgileri içeren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Daha sonra, tahmin değişkenleri olarak yaş ve metrekareyi ve yanıt değişkeni olarak fiyatı kullanarak çoklu doğrusal regresyon uyguladığımızı varsayalım.
Aşağıdaki sonucu alıyoruz:
Bu tablodaki regresyon katsayıları standartlaştırılmamıştır ; bu, bu regresyon modeline uymak için ham verileri kullandıkları anlamına gelir.
İlk bakışta, tahmin değişkeni metrekare için sadece 100.866 iken regresyon tablosundaki katsayısı -409.833 olduğundan yaşın gayrimenkul fiyatı üzerinde çok daha büyük bir etkisi olduğu görülmektedir.
Bununla birlikte, standart hata yaşa göre metrekareye göre çok daha büyüktür; bu nedenle karşılık gelen p değeri aslında yaşa göre büyük (p = 0,520) ve metrekareye göre küçük (p = 0,000) neden olur.
Regresyon katsayılarındaki aşırı farklılıkların nedeni, iki değişken için ölçeklerdeki aşırı farklılıklardan kaynaklanmaktadır:
- Yaşa göre değerler 4 ile 44 yaş arasında değişmektedir.
- Metrekare değerleri 1.200 ile 2.800 arasında değişmektedir.
Bunun yerine ham verileri normalleştirdiğimizi varsayalım:
Daha sonra standartlaştırılmış verileri kullanarak çoklu doğrusal regresyon gerçekleştirirsek aşağıdaki regresyon sonucunu elde ederiz:
Bu tablodaki regresyon katsayıları standartlaştırılmıştır , yani bu regresyon modeline uymak için standartlaştırılmış veriler kullanılmıştır.
Tablodaki katsayıların yorumlanma şekli şu şekildedir:
- Metrekarenin sabit kaldığı varsayıldığında, yaştaki bir standart sapmalık artış, ev fiyatında 0,092 standart sapmalık bir düşüşle ilişkilidir.
- Yaşın sabit kaldığı varsayıldığında , metrekaredeki bir standart sapmalık artış, ev fiyatındaki 0,885 standart sapmalık artışla ilişkilidir.
Artık konut fiyatları üzerinde metrekare etkisinin yaştan çok daha fazla olduğunu görebiliyoruz.
Not : Her yordayıcı değişkenin p değerleri önceki regresyon modelindekilerle tamamen aynıdır.
Hangi son modelin kullanılacağına karar verirken, bir evin fiyatını tahmin etmede metrekare boyutunun yaşından çok daha önemli olduğunu artık biliyoruz.
Sonuçta, konut ve emlak fiyatlarına ilişkin mevcut bilgilere dayanarak nihai modele hangi değişkenlerin dahil edileceğini belirlemek için konu uzmanlığımızı kullanmamız gerekecek.
Ek kaynaklar
Aşağıdaki eğitimler regresyon modelleri hakkında ek bilgi sağlar:
Regresyon Tablosu Nasıl Okunmalı ve Yorumlanmalı
Regresyon katsayıları nasıl yorumlanır?
Doğrusal regresyonda P değerleri nasıl yorumlanır?