Cara mudah menemukan pencilan di excel


Outlier adalah observasi yang jaraknya sangat jauh dari nilai lain dalam kumpulan data.

Pencilan dapat menjadi masalah karena dapat mempengaruhi hasil analisis.

Kami akan menggunakan kumpulan data berikut di Excel untuk mendemonstrasikan dua metode untuk menemukan outlier:

Terkait: Cara Menghitung Mean Tidak Termasuk Outlier di Excel

Metode 1: Gunakan rentang interkuartil

Rentang interkuartil (IQR) adalah selisih antara persentil ke-75 (Q3) dan persentil ke-25 (Q1) dalam suatu kumpulan data. Ini mengukur distribusi rata-rata 50% nilai.

Kita dapat mendefinisikan suatu observasi sebagai outlier jika observasi tersebut 1,5 kali rentang antarkuartil di atas kuartil ketiga (Q3) atau 1,5 kali rentang antarkuartil di bawah kuartil pertama (Q1).

Gambar berikut memperlihatkan cara menghitung rentang interkuartil di Excel:

Kemudian kita dapat menggunakan rumus yang disebutkan di atas untuk memberikan nilai “1” pada outlier mana pun dalam kumpulan data:

Temukan outlier di Excel

Kami melihat bahwa hanya satu nilai – 164 – yang merupakan outlier dalam kumpulan data ini.

Metode 2: Gunakan skor-z

Skor-z memberi tahu Anda berapa banyak deviasi standar suatu nilai tertentu dari mean. Kami menggunakan rumus berikut untuk menghitung skor-z:

z = (X – μ) / σ

Emas:

  • X adalah nilai data mentah tunggal
  • μ adalah rata-rata populasi
  • σ adalah simpangan baku populasi

Kita dapat mendefinisikan suatu observasi sebagai outlier jika observasi tersebut memiliki skor-z kurang dari -3 atau lebih besar dari 3.

Gambar berikut memperlihatkan cara menghitung mean dan deviasi standar kumpulan data di Excel:

Kita kemudian dapat menggunakan mean dan deviasi standar untuk menemukan skor-z untuk setiap nilai individual dalam kumpulan data:

Kita kemudian dapat menetapkan “1” untuk nilai apa pun yang skor z-nya kurang dari -3 atau lebih besar dari 3:

Menemukan Pencilan di Excel Menggunakan Z-Scores

Dengan menggunakan metode ini, kami melihat tidak ada outlier dalam dataset.

Catatan: Terkadang skor z 2,5 digunakan dan bukan 3. Dalam kasus ini, nilai individual 164 akan dianggap outlier karena memiliki skor z lebih besar dari 2,5.

Saat menggunakan metode z-score, gunakan penilaian Anda untuk menentukan nilai z-score mana yang Anda anggap sebagai outlier.

Cara menangani outlier

Jika ada outlier dalam data Anda, Anda memiliki beberapa opsi:

1. Pastikan outlier tersebut bukan akibat kesalahan entri data.

Terkadang seseorang memasukkan nilai data yang salah saat menyimpan data. Jika terdapat outlier, verifikasi terlebih dahulu bahwa nilai yang dimasukkan benar dan bukan kesalahan.

2. Hapus outlier.

Jika nilainya benar-benar outlier, Anda dapat memilih untuk menghapusnya jika nilai tersebut akan berdampak signifikan pada analisis Anda secara keseluruhan. Pastikan untuk menyebutkan dalam laporan akhir atau analisis Anda bahwa Anda telah menghapus outlier.

3. Tetapkan nilai baru pada outlier .

Jika outlier adalah akibat dari kesalahan entri data, Anda dapat memutuskan untuk memberinya nilai baru seperti mean atau median dari kumpulan data.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *