Sas'ta aykırı değerler nasıl belirlenir (örnekle)


Aykırı değer , bir veri kümesindeki diğer değerlerden anormal derecede uzak olan bir gözlemdir. Aykırı değerler sorunlu olabilir çünkü analizin sonuçlarını etkileyebilirler.

Bir veri setindeki aykırı değerleri tanımlamanın en yaygın yolu çeyrekler arası aralığı kullanmaktır.

Çeyrekler arası aralık (IQR), bir veri setindeki 75. yüzdelik dilim (Q3) ile 25. yüzdelik dilim (Q1) arasındaki farktır. Değerlerin ortalama %50’sinin dağılımını ölçer.

Genellikle bir gözlemi, üçüncü çeyreğin (Q3) çeyrekler arası aralığın 1,5 katı üzerinde veya birinci çeyreğin (Q1) altındaki çeyrekler arası aralığın 1,5 katı olması durumunda aykırı değer olarak tanımlarız.

Aykırı Değerler = Gözlemler > Ç3 + 1,5*IQR veya < Ç1 – 1,5*IQR

Aşağıdaki örnek, SAS’taki bir veri kümesindeki aykırı değerleri belirlemek için bu formülün nasıl kullanılacağını gösterir.

Örnek: SAS’ta Aykırı Değerleri Belirleme

SAS’ta aşağıdaki veri setine sahip olduğumuzu varsayalım:

 /*create dataset*/
data original_data;
    input team $points;
    datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;

/*view dataset*/
proc print data = original_data;

SAS’ta aykırı değerleri belirlemenin en kolay yolu, veri kümesindeki aykırı değerleri küçük daireler olarak tanımlamak ve görüntülemek için daha önce bahsedilen formülü otomatik olarak kullanan bir kutu grafiği oluşturmaktır:

 /*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
    vbox points;
run ;

/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data; 

Kutu grafiğinden, arsanın tepesine yakın iki küçük dairenin olduğunu görebiliriz. Bu iki aykırı değerin olduğunu gösterir.

Kutu grafiğinin altındaki tabloda iki aykırı değerin tam değerlerini görebiliriz: 221 ve 223 .

Önceki formülü kullanarak bu iki değerin aykırı değerler olup olmadığını manuel olarak kontrol edebiliriz:

Aykırı Değerler = Gözlemler > Ç3 + 1,5*IQR veya < Ç1 – 1,5*IQR

Çeyrekler arası aralık: Q3 – Q1 = 89,5 – 36 = 53,5.

Aykırı değerler için üst sınır şöyle olacaktır: Ç3 + 1,5*IQR = 89,5 + 1,5*53,5 = 169,75.

221 ve 223’ün her ikisi de bu değerden büyük olduğundan aykırı değerler olarak sınıflandırılırlar.

Daha sonra istersek bu iki aykırı değeri veri kümesinden kaldırmak için aşağıdaki kodu kullanabiliriz:

 /*create new dataset with outliers removed*/
data new_data;
    set original_data;
    if points >= 221 then delete;
run ;

/*view new dataset*/
proc print data =new_data; 

İki aykırı değerin kaldırıldığını unutmayın.

Ek kaynaklar

Aşağıdaki eğitimlerde SAS’ta diğer ortak görevlerin nasıl gerçekleştirileceği açıklanmaktadır:

SAS’ta prosedür özeti nasıl kullanılır?
SAS’ta Proc Tabulate nasıl kullanılır?
SAS’ta korelasyon nasıl hesaplanır?
SAS’ta frekans tabloları nasıl oluşturulur?
SAS’ta eksik değerler sıfırla nasıl değiştirilir?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir