Toplama yanlılığı nedir? (açıklama & örnek)
Toplama yanlılığı, birleştirilmiş verilerde gözlemlenen eğilimlerin hatalı bir şekilde bireysel veri noktalarına da uygulanacağı varsayıldığında ortaya çıkar.
Bu tür önyargıyı anlamanın en kolay yolu basit bir örnek almaktır.
Örnek: toplama yanlılığı
Araştırmacıların belirli bir eyaletteki ortalama eğitim yılı ile ortalama hane geliri arasındaki ilişkiyi anlamak istediklerini varsayalım. Eyaletteki 4 farklı şehir için toplu veriler elde ediyorlar ve ortalama eğitim ile ortalama hane geliri arasındaki ilişkiyi hesaplıyorlar.
Ortalama eğitim yılı ile ortalama hane geliri arasındaki korelasyonun 0,9632 olduğu ortaya çıktı. Bu çok pozitif bir korelasyon katsayısıdır.
Hatta araştırmacılar, ortalama eğitim yılı ile ortalama hane geliri arasındaki ilişkiyi görselleştirmek için bir dağılım grafiği bile oluşturuyor:
Aslında bireysel verilere bakmadan, daha uzun süreli eğitimin hane geliri ile güçlü bir pozitif korelasyona sahip olduğunu iddia eden bir rapor yayınlayabilirler.
Ancak bir yıl sonra yeni bir araştırmacının geldiğini ve aynı şehirlerdeki bireysel haneler hakkında veri topladığını varsayalım. Verilerin aşağıdaki dağılım grafiğini oluşturduğunu varsayalım:
İki değişken arasındaki korelasyonu hesaplıyor ve bunun aslında sadece 0,1788 olduğunu buluyor; hâlâ pozitif bir korelasyon ama önceki araştırmacıların bulduğu korelasyon kadar güçlü değil .
Veriler toplandığında, eğitim ile gelir arasında bireysel düzeyde meydana gelen gerçek eğilimi kapsadığı ortaya çıktı.
Hatta dağılım grafiğinde şehir şehir baktığımızda eğitim ile gelir arasındaki ilişki aslında negatif!
Toplama yanlılığının etkileri
Toplama yanlılığı araştırmalarda oldukça sık görülür çünkü toplu düzeyde ortaya çıkan eğilimlerin bireysel düzeyde de ortaya çıkması gerektiği şeklindeki yanlış bir varsayım sıklıkla yanlıştır. Ne yazık ki, önceki örnekte de görüldüğü gibi durum her zaman böyle değildir.
Toplama yanlılığı, bir çalışmanın sonuçlarının yanlış sonuçlara varmasına ve yanıltıcı olmasına neden olabilir. Bu tür bir önyargı, değişkenler arasındaki korelasyonlar söz konusu olduğunda özellikle zararlıdır.
İki değişkenin toplu verileri arasındaki korelasyon pozitif olsa bile, iki değişken arasındaki bireysel gözlem düzeyindeki temel korelasyon aslında şu şekilde olabilir:
- Negatif korelasyon
- Korelasyon yok
- Pozitif korelasyon
Bu tür önyargılardan kaçınmanın yolu, iki değişken arasındaki gerçek ilişkiyi keşfedebilmeniz için veri noktalarını toplamak yerine bireysel veri noktalarını kullanarak çalışmalar yürütmektir.