Açık dağıtım nedir?
İstatistikte açık dağıtım , bir veya daha fazla sınıfın (veya “kutuların”) açık olduğu bir frekans dağılımıdır.
Örneğin aşağıdaki frekans dağılımı, en küçük sınıfın açık olduğu bir açık dağılımı temsil eder:
Aşağıdaki frekans dağılımı, en büyük sınıfın açık olduğu bir açık dağılımı göstermektedir:
Tersine, kapalı bir dağıtım, frekans dağılımının her sınıfının aşağıdaki gibi bir üst ve alt limite sahip olduğu dağıtımdır:
Açık dağıtımlara ne sebep olur?
Açık dağıtımlar genellikle araştırmacıların veri toplamayı sınıflardan birinin açık olacağı şekilde seçmesinin sonucudur.
Örneğin, bir araştırmacının belirli bir şehrin sakinlerine anket yaptığını ve onlara yıllık hane gelirlerini sorduğunu varsayalım.
Araştırmacı mümkün olan en geniş yanıtı “>100.000 $” olarak vermeyi seçebilir çünkü yüksek gelirli sakinlerin, kazandıkları miktar 100.000 $’ın çok üzerindeyse ne kadar kazandıklarını paylaşma konusunda rahat olmayabileceklerini biliyorlar.
Tersine, araştırmacı mümkün olan en kısa cevabı vermeyi seçebilir çünkü çok az kazanan sakinlerin aynı zamanda az kazandıklarını paylaşma konusunda da rahat olmayacaklarını bilir.
Özetle, araştırmacılar anket sorularını yanıtlarken rahat hisseden kişi sayısını en üst düzeye çıkarmak istedikleri için anketlerine sıklıkla açık kurslar dahil ederler.
Açık dağıtımlarla ilgili sorun
Açık dağıtımlarla ilgili sorun, gerçek verilerin sansürlenmesidir . Başka bir deyişle, belirli bir şehirde 100.000 dolardan fazla kazanan insanların sayısını bilebiliyoruz ama aslında onların yıllık gelirlerini tam olarak bilmiyoruz.
Bazı kişilerin 150.000 ABD Doları, 250.000 ABD Doları, 500.000 ABD Doları veya daha fazlasını kazanması mümkündür, ancak bu kişilerin her biri ‘soruşturmada’>100.000 ABD Doları’ kazandıklarını belirtemediği için hiçbir fikrimiz yok.
Açık dağıtımlarda veriler sansürlendiğinden ham verilerdeki tüm değerlere erişimimiz olmadığından veri setindeki değerlerin tam ortalamasını ve standart sapmasını da hesaplayamıyoruz.
Açık bir dağıtım nasıl analiz edilir
Açık bir dağılımın tam ortalamasını hesaplayamadığımız için genellikle veri kümesinin “merkezinin” ölçüsü olarak medyanı kullanırız.
Medyanın veri setinin orta değerini temsil ettiğini hatırlayın.
Açık dağılımlarla çalışırken medyanın en iyi tahminini bulmak için aşağıdaki formülü kullanabiliriz:
En iyi medyan tahmini: L + ((n/2 – F) / f) * w
Altın:
- L: Orta grubun alt sınırı
- n: Toplam gözlem sayısı
- F: Orta gruba kadar kümülatif frekans
- f: Orta grubun frekansı
- w: Orta grubun genişliği
Örneğin aşağıdaki açık dağıtıma sahip olduğumuzu varsayalım:
Veri setinde toplam 72 değer bulunmaktadır. Yani medyan değerinin veri setindeki en büyük 36. ve 37. değerler arasında olacağını biliyoruz. Bu değerlerin her biri “60.000$ – 79.999$” sınıfına giriyor, yani medyan gelirin bu aralıkta olduğunu biliyoruz.
Medyanla ilgili en iyi tahminimiz şöyle olacaktır:
Medyan: 60.000 + ((72/2 – 25) / 19) * 19.999 = 71.578 ABD doları
Bu değer, bu veri kümesindeki bireylerin ortalama yıllık gelirine ilişkin en iyi tahminimizi temsil etmektedir.