Regresyon analizinde heteroskedastisiteyi anlamak
Regresyon analizinde, heteroskedastisite (bazen heteroskedastisite olarak da yazılır), artıkların veya hata terimlerinin eşit olmayan dağılımını ifade eder. Daha doğrusu, ölçülen değerler aralığı boyunca artıkların dağılımında sistematik bir değişikliğin olduğu durum budur.
Heteroskedasticity bir sorundur çünkü sıradan en küçük kareler (OLS) regresyonu, artıkların, sabit varyans anlamına gelen homoskedastisiteye sahip bir popülasyondan geldiğini varsayar.
Bir regresyon analizinde değişen varyans mevcut olduğunda, analiz sonuçlarına inanmak zorlaşır. Spesifik olarak, heteroskedastisite, regresyon katsayısı tahminlerinin varyansını arttırır, ancak regresyon modeli bunu hesaba katmaz.
Bu, gerçekte öyle olmadığı halde, bir regresyon modelinin, modeldeki bir terimin istatistiksel olarak anlamlı olduğunu iddia etme olasılığını çok daha artırır.
Bu eğitimde değişen varyansın nasıl tespit edileceği , değişen varyansın nedenleri ve değişen varyans problemini çözmenin potansiyel yolları açıklanmaktadır.
Heteroskedastisite nasıl tespit edilir
Heteroskedasticity’yi tespit etmenin en basit yolu , uygun bir değer/artık grafiği kullanmaktır.
Bir veri kümesine bir regresyon çizgisi yerleştirdikten sonra, modelin uydurulmuş değerlerini, bu uydurulmuş değerlerin artıklarına karşı gösteren bir dağılım grafiği oluşturabilirsiniz.
Aşağıdaki dağılım grafiği, değişen varyansın mevcut olduğu artık değere karşı uygun değerin tipik bir grafiğini göstermektedir.
Takılan değerler arttıkça artıkların nasıl daha fazla yayıldığına dikkat edin. Bu “koni” şekli değişen varyansın açık bir işaretidir.
Heteroskedastisitenin nedenleri nelerdir?
Değişken varyans, geniş bir yelpazede gözlemlenen veri değerlerinin bulunduğu veri setlerinde doğal olarak meydana gelir. Örneğin:
- Amerika Birleşik Devletleri’nde 100.000 kişinin yıllık gelir ve giderlerini içeren bir veri setini düşünün. Daha düşük gelirli insanlar için, karşılık gelen harcamaların değişkenliği daha düşük olacaktır çünkü bu insanlar muhtemelen yalnızca temel ihtiyaçları karşılamaya yetecek kadar paraya sahip olacaklardır. Daha yüksek gelire sahip bireyler için, eğer isterlerse harcayacak daha fazla paraya sahip olacakları için ilgili harcamalarda daha fazla değişkenlik olacaktır. Daha yüksek gelire sahip bazı insanlar gelirlerinin çoğunu harcamayı tercih ederken, diğerleri tutumlu olmayı ve yalnızca bir kısmını harcamayı seçecektir. Bu nedenle, bu yüksek gelirli bireyler arasındaki harcama değişkenliği doğası gereği daha yüksek olacaktır.
- Amerika Birleşik Devletleri’ndeki 1000 farklı şehirdeki çiçekçilerin nüfuslarını ve sayısını içeren bir veri kümesini düşünün. Seyrek nüfuslu kasabalarda yalnızca bir veya iki çiçekçinin bulunması yaygın olabilir. Ancak daha kalabalık şehirlerde çiçekçilerin sayısı çok daha değişken olacaktır. Bu kasabalarda 10 ile 100 arasında mağaza bulunabilir. Bu, bir regresyon analizi oluşturduğumuzda ve çiçekçi sayısını tahmin etmek için nüfusu kullandığımızda, daha kalabalık şehirler için artıklarda doğası gereği daha büyük değişkenlik olacağı anlamına gelir.
Bazı veri kümeleri heteroskedasiteye diğerlerine göre daha yatkındır.
Heteroscedasticity Nasıl Onarılır
Heteroskedasticity’yi düzeltmenin üç yaygın yolu vardır:
1. Bağımlı değişkeni dönüştürün
Heteroskedasticity’yi düzeltmenin bir yolu bağımlı değişkeni bir şekilde dönüştürmektir. Yaygın bir dönüşüm, bağımlı değişkenin logunu almaktır.
Örneğin, bir şehirdeki çiçekçi sayısını (bağımlı değişken) tahmin etmek için nüfus büyüklüğünü (bağımsız değişken) kullanırsak, bunun yerine bir kasabadaki çiçekçi sayısının logaritmasını tahmin etmek için nüfus büyüklüğünü kullanmayı deneyebiliriz.
Orijinal bağımlı değişken yerine bağımlı değişkenin logunun kullanılması çoğu zaman değişen varyansın ortadan kalkmasıyla sonuçlanır.
2. Bağımlı değişkeni yeniden tanımlayın
Heteroskedasticity’yi düzeltmenin bir başka yolu bağımlı değişkeni yeniden tanımlamaktır. Bunu yapmanın yaygın bir yolu, ham değer yerine bağımlı değişken için bir oran kullanmaktır.
Örneğin, bir şehirdeki çiçekçi sayısını tahmin etmek için nüfus büyüklüğünü kullanmak yerine, kişi başına düşen çiçekçi sayısını tahmin etmek için nüfus büyüklüğünü kullanabiliriz.
Çoğu durumda bu, çiçekçilerin sayısından ziyade kişi başına düşen çiçekçilerin sayısını ölçtüğümüz için daha büyük popülasyonlarda doğal olarak oluşan değişkenliği azaltır.
3. Ağırlıklı regresyon kullanın
Heteroskedasticity’yi düzeltmenin başka bir yolu da ağırlıklı regresyon kullanmaktır. Bu regresyon türü, her veri noktasına, uydurulan değerin varyansına bağlı olarak bir ağırlık atar.
Temel olarak bu, daha yüksek varyansa sahip veri noktalarına düşük ağırlık vererek bunların kalan karelerini azaltır. Uygun ağırlıklar kullanıldığında değişen varyans sorunu ortadan kaldırılabilir.
Çözüm
Değişken varyans, regresyon analizi söz konusu olduğunda oldukça yaygın bir sorundur, çünkü birçok veri seti doğası gereği sabit olmayan varyansa tabidir.
Bununla birlikte, artık grafiğine karşı uygun bir değer grafiği kullanılarak değişen varyansları tespit etmek oldukça kolay olabilir.
Bağımlı değişkeni dönüştürerek, bağımlı değişkeni yeniden tanımlayarak veya ağırlıklı regresyon kullanarak değişen varyans sorunu çoğu zaman ortadan kaldırılabilir.