İstatistikte ortalama kullanmanın avantajları ve dezavantajları


Bir veri kümesinin ortalaması , veri kümesinin ortalama değerini temsil eder.

Aşağıdaki şekilde hesaplanır:

Ortalama = Σx i / n

Altın:

  • Σ: “toplam” anlamına gelen bir sembol
  • x i : Bir veri setindeki i’inci gözlem
  • n: veri kümesindeki toplam gözlem sayısı

Bir veri kümesinin “merkezini” veya “ortalamasını” tanımlamak için ortalamayı kullanmanın iki ana avantajı vardır:

Avantaj #1: Ortalama, hesaplamasında bir veri kümesindeki tüm gözlemleri kullanır. İstatistikte bu genellikle iyi bir şeydir çünkü bir veri setinde mevcut olan tüm bilgilerin kullanıldığı söylenir.

Avantaj #2: Ortalamanın hesaplanması ve yorumlanması kolaydır. Ortalama, tüm gözlemlerin toplamının toplam gözlem sayısına bölünmesiyle elde edilir. Hem hesaplaması kolaydır (hatta manuel olarak) hem de yorumlanması kolaydır.

Bununla birlikte, bir veri setini özetlemek için ortalamayı kullanmanın iki potansiyel dezavantajı vardır:

Dezavantaj #1: Ortalama aykırı değerlerden etkilenir. Bir veri kümesinde aşırı uç değerler varsa, bu durum ortalamayı etkiler ve onu veri kümesinin merkezinin güvenilmez bir ölçüsü haline getirir.

Dezavantaj #2: Çarpık veri kümeleri nedeniyle ortalama yanıltıcı olabilir. Bir veri kümesi sola veya sağa eğildiğinde ortalama alma, veri kümesinin merkezini ölçmenin yanıltıcı bir yolu olabilir.

Aşağıdaki örnekler uygulamadaki bu avantaj ve dezavantajları göstermektedir.

Örnek 1: Ortalamayı Kullanmanın Yararları

Belirli bir şehrin sakinlerinin maaşlarını gösteren aşağıdaki histograma sahip olduğumuzu varsayalım:

Bu dağılım genel olarak simetrik olduğundan (ortadan bölerseniz her yarım kabaca eşit görünür) ve aykırı değerler olmadığından ortalama, bu veri kümesinin merkezini tanımlamanın yararlı bir yoludur.

Ortalama 63.000 dolar olarak ortaya çıkıyor ve bu da yaklaşık olarak dağılımın merkezinde yer alıyor:

Bu özel örnekte ortalama almanın her iki avantajını da kullanabildik:

Avantaj #1: Ortalama, hesaplamasında bir veri kümesindeki tüm gözlemleri kullanır.

Dağıtım esasen simetrik olduğundan ve aşırı aykırı değerler olmadığından, ortalamayı hesaplamak için mevcut tüm maaşları kullanabildik, bu da bize bu şehirdeki “ortalama” veya “tipik” maaş hakkında iyi bir fikir verdi.

Avantaj #2: Ortalamanın hesaplanması ve yorumlanması kolaydır. Ortalama 63.000 dolarlık maaşın bu şehirdeki bir bireyin “ortalama” maaşını temsil ettiğini anlamak kolaydır.

Bazı bireyler bundan çok daha fazla, bazıları ise çok daha az kazansa da, bu ortalama değer bize bu şehirdeki “tipik” maaş hakkında iyi bir fikir veriyor.

Örnek 2: Ortalamayı Kullanmanın Dezavantajları

Diyelim ki çok çarpık bir maaş dağılımımız var ve hem ortalama hem de medyan maaşı hesaplamaya karar verdik:

Dağılımın kuyruğundaki daha yüksek değerler, ortalamayı merkezden uzaklaştırıp uzun kuyruğa doğru hareket ettirir.

Bu örnekte, ortalama bize tipik bir bireyin yılda yaklaşık 47.000 ABD Doları kazandığını söylerken medyan bize tipik bir bireyin yılda yalnızca 32.000 ABD Doları civarında kazandığını söylüyor; bu da tipik bir bireyi çok daha iyi temsil ediyor.

Bu örnekte, dağılım çarpık olduğundan ortalama, bu dağılımdaki “tipik” veya “ortalama” değeri yetersiz bir şekilde özetlemektedir.

Veya belirli bir caddedeki evlerin metrekaresi hakkında bilgi içeren başka bir dağılıma sahip olduğumuzu ve veri setinin hem ortalamasını hem de ortancasını hesaplamaya karar verdiğimizi varsayalım:

Ortalama ve medyan ne zaman kullanılmalı?

Ortalamanın aşırı büyük birkaç evden etkilenmesi çok daha yüksek değer almasına neden oluyor.

Bu, ortalama metrekare değerini yanıltıcı hale getirir ve o sokaktaki bir evin “tipik” metrekaresi hakkında zayıf bir ölçüm sağlar.

Ek kaynaklar

Aşağıdaki eğitimler istatistiklerde ortalama ve medyan hakkında ek bilgi sağlar:

Aykırı değerler ortalamayı nasıl etkiler?
Herhangi bir histogramın ortalaması ve medyanı nasıl tahmin edilir?
Kök ve yaprak grafiklerinin ortalaması ve medyanı nasıl bulunur?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir