Cara mengidentifikasi outlier di spss


Outlier adalah observasi yang jaraknya sangat jauh dari nilai lain dalam kumpulan data. Pencilan dapat menjadi masalah karena dapat mempengaruhi hasil analisis.

Tutorial ini menjelaskan cara mengidentifikasi dan menangani outlier di SPSS.

Cara mengidentifikasi outlier di SPSS

Misalkan kita mempunyai kumpulan data berikut yang menunjukkan pendapatan tahunan (dalam ribuan) dari 15 orang:

Salah satu cara untuk menentukan apakah ada outlier adalah dengan membuat plot kotak untuk kumpulan data. Untuk melakukannya, klik pada tab Analisis , lalu Statistik Deskriptif , lalu Jelajahi :

Di jendela baru yang muncul, seret variabel pendapatan ke dalam kotak berlabel Daftar tanggungan. Lalu klik Statistik dan pastikan kotak di sebelah Persentil dicentang. Lalu klik Lanjutkan . Lalu klik oke .

Setelah Anda mengklik OK , plot kotak akan muncul:

Plot kotak di SPSS

Jika tidak ada lingkaran atau tanda bintang di kedua ujung diagram kotak, hal ini menunjukkan bahwa tidak ada outlier.

SPSS menganggap nilai data apa pun sebagai outlier jika berada di luar rentang berikut:

  • Kuartil ke-3 + 1,5*rentang interkuartil
  • Kuartil pertama – 1,5*rentang interkuartil

Kita dapat menghitung rentang antarkuartil dengan mengambil selisih antara persentil ke-75 dan ke-25 pada baris berlabel Tukey Hinges pada hasilnya:

Rentang interkuartil Engsel Tukey di SPSS

Untuk kumpulan data ini, rentang interkuartilnya adalah 82 – 36 = 46 . Oleh karena itu, nilai apa pun di luar rentang berikut akan dianggap outlier:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Jelasnya, pendapatan tidak boleh negatif, sehingga batas bawah dalam contoh ini tidak berguna. Namun, pendapatan apa pun di atas 151 akan dianggap sebagai outlier.

Misalnya, nilai terbesar dalam kumpulan data kita adalah 152. Berikut adalah plot kotak untuk kumpulan data tersebut:

Boxplot dengan outlier di SPSS

Lingkaran menunjukkan adanya outlier pada data. Angka 15 menunjukkan observasi mana dalam dataset yang merupakan outlier.

SPSS juga menganggap nilai data apa pun sebagai outlier ekstrem jika berada di luar rentang berikut:

  • Kuartil ke-3 + rentang interkuartil ke-3
  • Kuartil pertama – 3*rentang interkuartil

Jadi, nilai apa pun di luar rentang berikut akan dianggap sebagai outlier ekstrem dalam contoh ini:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Misalnya, nilai terbesar pada dataset kita adalah 221. Berikut adalah box plot dari dataset tersebut:

Pencilan ekstrim dalam plot kotak di SPSS

Tanda bintang (*) menunjukkan adanya outlier ekstrim pada data. Angka 15 menunjukkan observasi mana dalam dataset yang merupakan outlier ekstrim.

Cara menangani outlier

Jika ada outlier dalam data Anda, Anda memiliki beberapa opsi:

1. Pastikan outlier tersebut bukan akibat kesalahan entri data.

Terkadang seseorang memasukkan nilai data yang salah saat menyimpan data. Jika terdapat outlier, verifikasi terlebih dahulu bahwa nilai yang dimasukkan benar dan bukan kesalahan.

2. Hapus outlier.

Jika nilainya benar-benar outlier, Anda dapat memilih untuk menghapusnya jika nilai tersebut akan berdampak signifikan pada analisis Anda secara keseluruhan. Pastikan untuk menyebutkan dalam laporan akhir atau analisis Anda bahwa Anda telah menghapus outlier.

3. Tetapkan nilai baru pada outlier .

Jika outlier ternyata disebabkan oleh kesalahan entri data, Anda dapat memutuskan untuk memberinya nilai baru seperti mean atau median kumpulan data.

Sumber daya tambahan

Jika Anda bekerja dengan beberapa variabel sekaligus, Anda mungkin ingin menggunakan jarak Mahalanobis untuk mendeteksi outlier.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *