İstatistikte medyan kullanmanın avantajları ve dezavantajları
Medyan, bir veri kümesinin orta değerini temsil eder.
Bir veri setindeki tüm gözlemlerin en küçükten en büyüğe doğru sıralanması ve ardından medyan değerinin belirlenmesiyle hesaplanır.
Bir veri kümesinin merkezini tanımlamak için medyanı kullanmanın iki ana avantajı vardır:
Avantaj #1: Medyan aykırı değerlerden etkilenmez. Medyan, bir veri kümesinin yalnızca ortadaki değerini bulduğu için, bir veri kümesinin her iki ucundaki aşırı küçük veya aşırı büyük değerlerden etkilenmez.
Avantaj #2: Medyan, çarpık veri kümeleri için merkezin iyi bir ölçüsüdür. Bir veri seti sola veya sağa çarpık olduğunda, çarpık dağılımlardan büyük ölçüde etkilenen ortalamanın aksine, medyan yine de bir veri setinin merkezi değerini tanımlamayı başarır.
Bununla birlikte, bir veri kümesini özetlemek için medyanın kullanılmasının iki potansiyel dezavantajı vardır:
Dezavantaj #1: Medyan, hesaplamasında bir veri setindeki tüm gözlemleri kullanmaz. İstatistikte genellikle bir veri setindeki tüm gözlemleri kullanabilmemizin iyi bir şey olduğunu söyleriz çünkü o zaman verilerimizdeki mevcut tüm bilgileri kullanırız. Ancak medyan, bir veri kümesindeki aşırı küçük veya aşırı büyük değerlerden gelen bilgileri dikkate almaz.
Dezavantaj #2: Medyan, veri kümesindeki tüm gözlemlerin toplamını bulmak için kullanılamaz. Bir veri setinin ortalamasını ve toplam örneklem büyüklüğünü bilirsek veri setindeki tüm değerlerin toplamını bulabiliriz. Ancak aynı şeyi medyan için yapamayız.
Aşağıdaki örnekler uygulamadaki bu avantaj ve dezavantajları göstermektedir.
Örnek 1: Medyan kullanmanın avantajları
Diyelim ki çok çarpık bir maaş dağılımımız var ve hem ortalama hem de medyan maaşı hesaplamaya karar verdik:
Ortalama bize tipik bir bireyin yılda yaklaşık 47.000 ABD Doları kazandığını söylerken, medyan bize tipik bireyin yılda yalnızca 32.000 ABD Doları civarında kazandığını söylüyor; bu da tipik bir bireyi çok daha iyi temsil ediyor.
Bu örnekte ortalama, dağılımın sağ kuyruğundaki en yüksek değerlerden etkilenirken medyan etkilenmemektedir.
Veya belirli bir caddedeki evlerin metrekaresi hakkında bilgi içeren başka bir dağılıma sahip olduğumuzu ve veri setinin hem ortalamasını hem de ortancasını hesaplamaya karar verdiğimizi varsayalım:
Ortalamanın aşırı büyük birkaç evden etkilenmesi çok daha yüksek değer almasına neden oluyor.
Ancak medyan bu aykırı değerlerden etkilenmez ve bu nedenle o sokaktaki bir evin “tipik” metrekaresine ilişkin çok daha iyi bir ölçüm sağlar.
Örnek 2: Medyan kullanmanın dezavantajları
Medyanın ilk potansiyel dezavantajını hatırlayalım:
Dezavantaj #1: Medyan, hesaplamasında bir veri setindeki tüm gözlemleri kullanmaz.
Örneğin, bir sınıftaki öğrencilerin sınav puanlarının dağılımını gösteren aşağıdaki veri kümesine sahip olduğumuzu varsayalım:
Derecelendirmeler: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Sınavın ortalama puanı 83’tür.
Şimdi aynı veri setine sahip olduğumuzu ancak en düşük üç sınav puanının çok daha düşük olduğunu varsayalım:
Derecelendirmeler: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Bu dağılımdaki medyan sınav puanı halen 83’tür.
Bu nedenle medyanın bir veri setinde mevcut olan tüm bilgileri kullanmadığını söylüyoruz: sadece konum ölçüsü olduğu için verinin gerçek değerlerini hesaba katmıyor.
Şimdi medyanın ikinci potansiyel dezavantajını hatırlayalım:
Dezavantaj #2: Medyan, veri kümesindeki tüm gözlemlerin toplamını bulmak için kullanılamaz.
Belirli bir çeyrekte 11 farklı çalışanın yaptığı toplam satışlara ilişkin bilgileri içeren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Satışlar: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38
Medyan değerinin 24 olduğunu biliyoruz ve toplamda 11 çalışanın olduğunu biliyoruz. Ancak bu bilgiyi tüm çalışanların toplam satış tutarını bilmek için kullanamayız.
Öte yandan ortalama değerin 24 olduğunu ve toplamda 11 çalışanın olduğunu bilseydik, 24’ü 11 ile çarparak toplam satış toplamının 24 * 11 = 264 olduğunu bulabilirdik.
Not : Verilerinizin dağıtımına ve çözmeye çalıştığınız soruna bağlı olarak, ortalama veya medyan kullanılması tercih edilen ölçüm olabilir.
Ek kaynaklar
Aşağıdaki eğitimler istatistiklerde ortalama ve medyan hakkında ek bilgi sağlar:
Aykırı değerler ortalamayı nasıl etkiler?
Herhangi bir histogramın ortalaması ve medyanı nasıl tahmin edilir?
Kök ve yaprak grafiklerinin ortalaması ve medyanı nasıl bulunur?