Aykırı değerler ortalamayı nasıl etkiler?
İstatistikte bir veri kümesinin ortalaması ortalama değerdir. Bunu bilmek faydalıdır çünkü bize veri kümesinin “merkezinin” nerede olduğuna dair bir fikir verir. Basit formül kullanılarak hesaplanır:
ortalama = (gözlemlerin toplamı) / (gözlem sayısı)
Örneğin aşağıdaki veri setine sahip olduğumuzu varsayalım:
[1, 4, 5, 6, 7]
Veri kümesinin ortalaması (1+4+5+6+7) / (5) = 4,6
Ancak ortalama yararlı ve hesaplanması kolay olmasına rağmen bir dezavantajı vardır: Aykırı değerlerden etkilenebilir . Özellikle, veri seti ne kadar küçük olursa, aykırı değer ortalamayı o kadar fazla etkileyebilir.
Bunu açıklamak için aşağıdaki klasik örneği düşünün:
On adam bir barda oturuyor. On erkeğin ortalama geliri 50.000 dolardır. Aniden bir adam dışarı çıkıyor ve Bill Gates içeri giriyor. Bugün bardaki on adamın ortalama geliri 40 milyon dolar.
Bu örnek, bir aykırı değerin (Bill Gates) ortalamayı nasıl önemli ölçüde etkileyebileceğini göstermektedir.
Küçük ve büyük aykırı değerler
Bir aykırı değer, alışılmadık derecede küçük veya alışılmadık derecede büyük olarak ortalamayı etkileyebilir. Önceki örnekte Bill Gates’in alışılmadık derecede yüksek bir geliri vardı ve bu da ortalamayı yanıltıcı hale getiriyordu.
Ancak alışılmadık derecede düşük bir değer de ortalamayı etkileyebilir. Bunu açıklamak için aşağıdaki örneği göz önünde bulundurun:
On öğrenci sınava girer ve aşağıdaki notları alır:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Ortalama puan 84,6’dır .
Ancak veri setinden “0” puanını çıkarırsak ortalama puan 94 olur.
Bir öğrencinin alışılmadık derecede düşük puanı, tüm veri setinin ortalamasını düşürür.
Örneklem büyüklüğü ve aykırı değerler
Veri setinin örneklem boyutu ne kadar küçükse, aykırı değerin ortalamayı etkileme olasılığı da o kadar yüksektir.
Örneğin, sıfır puan alan bir öğrenci dışında tüm öğrencilerin en az 90 veya daha yüksek puan aldığı 100 sınav puanı içeren bir veri kümemiz olduğunu varsayalım:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
Ortalama 93,18 çıkıyor. Veri setinden “0”ı çıkarırsak ortalama 94,12 olacaktır. Bu nispeten küçük bir farktır. Bu, eğer veri seti yeterince büyükse, uç noktadaki bir aykırı değerin bile yalnızca minimal bir etkiye sahip olduğunu göstermektedir.
Aykırı değerler nasıl ele alınır?
Veri kümenizde aykırı bir değer olabileceğinden endişeleniyorsanız birkaç seçeneğiniz vardır:
- Aykırı değerin veri girişi hatasından kaynaklanmadığından emin olun. Bazen bir kişi verileri kaydederken yanlış veri değerini girer. Aykırı değer mevcutsa öncelikle değerin doğru girildiğini ve bunun bir hata olmadığını doğrulayın.
- Aykırı değere yeni bir değer atayın . Aykırı değerin bir veri girişi hatasının sonucu olduğu ortaya çıkarsa, ona veri kümesinin ortalaması veya medyanı gibi yeni bir değer atamaya karar verebilirsiniz.
- Aykırı olanı kaldırın. Değer gerçekten aykırı bir değerse ve genel analiziniz üzerinde önemli bir etkisi olacaksa onu kaldırmayı seçebilirsiniz. Son raporunuzda veya analizinizde aykırı bir değeri kaldırdığınızı mutlaka belirtin.
Medyanı kullan
Bir veri kümesinin “merkezini” bulmanın bir başka yolu, bir veri kümesindeki tüm bireysel değerlerin en küçükten en büyüğe sıralanması ve ortanca değerinin bulunmasıyla elde edilen medyanı kullanmaktır.
Hesaplanma şekli nedeniyle medyan aykırı değerlerden daha az etkilenir ve aykırı değerler olduğunda dağılımın merkezi konumunu daha iyi yakalar.
Örneğin, belirli bir mahalledeki evlerin metrekaresini gösteren aşağıdaki grafiği düşünün:
Ortalama, birkaç aşırı büyük evden büyük ölçüde etkilenirken, medyan etkilenmemektedir. Dolayısıyla medyan, o mahalledeki bir evin “tipik” metrekaresini ortalamadan daha iyi yakalıyor.
Daha fazla okuma:
Merkezi eğilim ölçüleri – ortalama, medyan ve mod
Aykırı değerleri tespit etmek için Dixon’ın Q testi
Aykırı Değer Hesaplayıcı