Standart sapma kullanmanın avantajları ve dezavantajları
Bir veri setinin standart sapması, bireysel değerlerin ortalama değerden tipik sapmasını ölçmenin bir yoludur.
Örnek standart sapmanın hesaplanmasına yönelik formül (s ile gösterilir):
s = √ Σ(x ben – x̄) 2 / (n – 1)
Altın:
- Σ : “Toplam” anlamına gelen bir sembol
- x i : Bir veri kümesindeki i’inci değer
- x̄ : Örnek şu anlama gelir:
- n : Örneklem büyüklüğü
Bir veri kümesindeki değerlerin dağılımını tanımlamak için standart sapmayı kullanmanın iki ana avantajı vardır:
Avantaj #1: Standart sapma, hesaplamasında bir veri setindeki tüm gözlemleri kullanır. İstatistikte genellikle hesaplamaları gerçekleştirmek için bir veri setindeki tüm gözlemleri kullanabilmenin iyi bir şey olduğunu söyleriz, çünkü veri setinde mevcut olan tüm olası “bilgileri” kullanırız.
Avantaj #2: Standart sapmanın yorumlanması kolaydır . Standart sapma, bir veri setindeki “tipik” gözlemin ortalama değerden ne kadar uzakta olduğuna dair bize iyi bir fikir veren tek bir değerdir.
Ancak standart sapmayı kullanmanın büyük bir dezavantajı vardır:
Dezavantaj #1: Standart sapma aykırı değerlerden etkilenebilir . Bir veri setinde aşırı aykırı değerler mevcut olduğunda, standart sapma değerini şişirebilir ve dolayısıyla bir veri setindeki değerlerin dağılımı hakkında yanıltıcı bir fikir verebilir.
Aşağıdaki örnekler standart sapma kullanmanın avantajları ve dezavantajları hakkında daha fazla bilgi sağlar.
Avantaj #1: Standart sapma tüm gözlemleri kullanır
Bir sınıftaki öğrencilerin sınav puanlarının dağılımını gösteren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Derecelendirmeler: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Bu veri setinin örnek standart sapmasının 8,46 olduğunu bulmak için bir hesap makinesi veya istatistik yazılımı kullanabiliriz.
Bu örnekte standart sapma kullanmanın avantajı, değerlerin tipik “dağılımını” bulmak için veri setindeki tüm olası gözlemleri kullanmamızdır.
Bunun aksine, bu veri setindeki değerlerin dağılımını ölçmek için çeyrekler arası aralık gibi başka bir metrik kullanabiliriz.
Çeyrekler arası aralığın 17,5 olduğunu bulmak için bir hesap makinesi kullanabiliriz. Bu, veri kümesindeki değerlerin ortadaki %50’lik kısmı arasındaki boşluğu temsil eder.
Şimdi veri kümesindeki en düşük değeri çok daha düşük olacak şekilde değiştirdiğimizi varsayalım:
Derecelendirmeler: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Örnek standart sapmanın 18,37 olduğunu bulmak için bir hesap makinesi kullanabiliriz.
Ancak ortadaki %50’lik değerlerin hiçbiri etkilenmediğinden çeyrekler arası aralık hala 17,5’tir .
Bu, örnek standart sapmanın, diğer dağılım ölçümlerinden farklı olarak, hesaplamasında veri kümesindeki tüm gözlemleri hesaba kattığını gösterir.
Avantaj #2: Standart sapmanın yorumlanması kolaydır
Bir sınıftaki öğrencilerin sınav puanlarının dağılımını gösteren aşağıdaki veri kümesini hatırlayın:
Derecelendirmeler: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Bu veri setinin örnek standart sapmasının 8,46 olduğunu bulmak için bir hesap makinesi kullandık.
Bunu yorumlamak kolaydır çünkü bu basitçe “tipik” bir sınav puanının ortalama sınav puanına göre yaklaşık 8,46 sapması anlamına gelir.
Öte yandan, diğer dağılım ölçülerinin yorumlanması o kadar kolay değildir.
Örneğin, bir varyasyon katsayısı, standart sapmanın örnek ortalamasına oranını temsil eden başka bir dağılım ölçüsüdür.
Değişim katsayısı: s/x̄
Bu örnekte ortalama sınav puanı 81,46 olduğundan varyasyon katsayısı şu şekilde hesaplanır: 8,46 / 81,46 = 0,104 .
Bu, örnek standart sapmanın örnek ortalamaya oranını temsil eder; bu, birden çok veri kümesindeki değerlerin dağılımını karşılaştırmak için yararlı olabilir, ancak kendi başına bir metrik olarak yorumlanması çok kolay değildir.
Dezavantaj #1: Standart sapma aykırı değerlerden etkilenebilir
Bir şirketteki 10 çalışanın (bin dolar cinsinden) maaş bilgilerini içeren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Maaşlar: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
Maaşların örnek standart sapması yaklaşık 15,57’dir .
Şimdi, tamamen aynı veri setine sahip olduğumuzu, ancak en yüksek maaşın çok daha yüksek olduğunu varsayalım:
Maaşlar: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
Bu veri setindeki maaşların örnek standart sapması yaklaşık 262,47’dir .
Yalnızca tek bir aşırı aykırı değerin dahil edilmesiyle standart sapma büyük ölçüde etkileniyor ve artık “tipik” maaş dağılımı konusunda yanıltıcı bir fikir veriyor.
Not : Bir veri setinde aykırı değerler mevcut olduğunda, çeyrekler arası aralık, aykırı değerlerden etkilenmediğinden daha iyi bir dağılım ölçümü sağlayabilir.
Ek kaynaklar
Aşağıdaki eğitimler istatistikte standart sapmanın kullanımına ilişkin ek bilgiler sağlar:
Çeyrekler arası aralık ve standart sapma: fark
Standart sapmaya karşı varyasyon katsayısı: fark
Nüfus vs. Örnek Standart Sapma: Her Biri Ne Zaman Kullanılmalı