Cara mengidentifikasi pencilan di sas (dengan contoh)


Outlier adalah observasi yang jaraknya sangat jauh dari nilai lain dalam kumpulan data. Pencilan dapat menjadi masalah karena dapat mempengaruhi hasil analisis.

Cara paling umum untuk mengidentifikasi outlier dalam kumpulan data adalah dengan menggunakan rentang interkuartil.

Rentang interkuartil (IQR) adalah selisih antara persentil ke-75 (Q3) dan persentil ke-25 (Q1) dalam suatu kumpulan data. Ini mengukur distribusi rata-rata 50% nilai.

Umumnya kita mendefinisikan suatu observasi sebagai outlier jika observasi tersebut 1,5 kali rentang antarkuartil di atas kuartil ketiga (Q3) atau 1,5 kali rentang antarkuartil di bawah kuartil pertama (Q1).

Outlier = Pengamatan > Q3 + 1,5*IQR atau < Q1 – 1,5*IQR

Contoh berikut menunjukkan cara menggunakan rumus ini untuk mengidentifikasi outlier dalam kumpulan data di SAS.

Contoh: Mengidentifikasi Outlier di SAS

Anggaplah kita memiliki kumpulan data berikut di SAS:

 /*create dataset*/
data original_data;
    input team $points;
    datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;

/*view dataset*/
proc print data = original_data;

Cara termudah untuk mengidentifikasi outlier di SAS adalah dengan membuat plot kotak, yang secara otomatis menggunakan rumus yang disebutkan sebelumnya untuk mengidentifikasi dan menampilkan outlier dalam kumpulan data sebagai lingkaran kecil:

 /*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
    vbox points;
run ;

/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data; 

Dari boxplot kita dapat melihat ada dua lingkaran kecil di dekat bagian atas plot. Hal ini menunjukkan bahwa terdapat dua outlier.

Pada tabel di bawah diagram kotak, kita dapat melihat nilai pasti dari kedua outlier: 221 dan 223 .

Kita dapat memeriksa secara manual bahwa kedua nilai ini adalah outlier menggunakan rumus sebelumnya:

Outlier = Pengamatan > Q3 + 1,5*IQR atau < Q1 – 1,5*IQR

Rentang antarkuartilnya adalah: Q3 – Q1 = 89,5 – 36 = 53,5.

Batas atas outlier adalah: Q3 + 1.5*IQR = 89.5 + 1.5*53.5 = 169.75.

Karena 221 dan 223 lebih besar dari nilai ini, maka keduanya diklasifikasikan sebagai outlier.

Kita kemudian dapat menggunakan kode berikut untuk menghapus dua outlier ini dari kumpulan data jika kita mau:

 /*create new dataset with outliers removed*/
data new_data;
    set original_data;
    if points >= 221 then delete;
run ;

/*view new dataset*/
proc print data =new_data; 

Perhatikan bahwa kedua outlier telah dihapus.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di SAS:

Cara menggunakan ringkasan prosedur di SAS
Cara menggunakan Proc Tabulate di SAS
Cara menghitung korelasi di SAS
Cara membuat tabel frekuensi di SAS
Bagaimana cara mengganti nilai yang hilang dengan nol di SAS

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *