Veriler nasıl winsorize edilir: tanım ve örnekler
Verileri Winsorize etmek , aşırı aykırı değerlerin verinin belirli bir yüzdelik dilimine eşitlenmesi anlamına gelir.
Örneğin, %90’lık bir winsorizasyon, 95. yüzdelik dilimin üzerindeki tüm gözlemleri 95. yüzdelik değere eşitler ve 5. yüzdelik dilimin altındaki tüm gözlemleri 5. yüzdelik değere eşitler.
Aslında verileri winsorize etmek, bir veri kümesinin uç değerlerini daha az uç değerlere değiştirmek anlamına gelir.
Örnek: Veriler Nasıl Winsorize Edilir?
Aşağıdaki veri setine sahip olduğumuzu varsayalım:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Bu veri kümesinde %90’lık bir winsorizasyon gerçekleştirmek için öncelikle 5. yüzdelik dilim ve 95. yüzdelik dilimleri buluruz; bunlar şu şekilde olur:
- 5. yüzdelik dilim: 12,35
- 95. yüzdelik dilim: 92,05
Daha sonra 12,35’ten küçük tüm değerleri 12,35’e ve 92,05’ten büyük tüm değerleri 92,05’e eşitleyeceğiz:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
Bu durumda 3 değeri 12,35 , 98 değeri ise 92,05 oldu.
Verileri neden Winsorize etmelisiniz?
Ortalama ve standart sapma, sırasıyla bir veri kümesinin merkezinin konumunu ve bir veri kümesindeki gözlemlerin dağılımını ölçmek için kullanılan iki yaygın yöntemdir.
Bununla birlikte, bu iki önlemin her ikisi de aşırı aykırı değerlerden etkilenebilir. Böylece, verileri winorizing, aşırı aykırı değerleri daha az uç değerlere eşit olarak tanımlamamıza olanak tanır.
Bu genellikle veri setinin ortalama ve standart sapmasına ilişkin daha doğru bir görünüm elde etmemizi sağlar.
Erik altın Winsorize
Aykırı değerlerle başa çıkmanın bir diğer yaygın yolu da onları veri kümesinden kaldırmaktır , bu da onları tamamen kaldırmak anlamına gelir.
Örneğin, önceki veri kümesini göz önünde bulundurun:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Eğer 5. yüzdelik dilimin altındaki ya da 95. yüzdelik dilimin üstündeki değerleri azaltmak isteseydik, 3 ve 98 değerlerini kaldırmamız yeterli olurdu.
Dilimlemenin veya winsorizasyonun ne zaman kullanılacağına ilişkin bazı temel kurallar şunlardır:
Kırpma: Bazı değerler tamamen mantıksız göründüğünde, yani veri giriş hatasından kaynaklandığında, veri değerlerini kırpmak mantıklıdır.
Winsorizasyon: Aşırı uçlardaki gözlemleri tutmak istediğimizde, ancak onları tam anlamıyla ele almak istemediğimizde, verileri winsorize etmek mantıklıdır.
Verilerin winsorizasyonuna ilişkin önlemler
Veri toplamaya karar verirken aklınızda bulundurmanız gereken bazı noktalar şunlardır:
1. Aşırı aykırı değerler yoksa, verilerin winorizing edilmesi en küçük ve en büyük değerleri yalnızca biraz değiştirecektir. Bu genellikle iyi bir fikir değildir çünkü bu, yalnızca veri değerlerini değiştirmek amacıyla değiştirdiğimiz anlamına gelir.
2. Aykırı değerler verilerdeki ilginç uç durumları temsil edebilir. Bu nedenle, aykırı değerleri düzenlemeden önce, onlara neyin sebep olabileceğini görmek için onlara daha yakından bakmak iyi bir fikirdir.
3. Verileri daha önce değil, veri toplandıktan sonra kazanıp kazanmayacağınıza karar vermelisiniz. Winsorize etmeye karar vermeden önce gerçekten aşırı aykırı değerlerin olup olmadığını görmelisiniz. Aşırı aykırı değerler mevcut değilse, winsorizasyon gereksiz olabilir.
Öğretici: Excel’deki verileri Winsorize etme
Excel’de bir veri kümesinin nasıl kazanılacağına ilişkin adım adım örnek içinbu eğitime bakın.