Nilai yang tidak lazim (outlier)

Artikel ini menjelaskan apa itu outlier dan cara menghitungnya. Selain itu, Anda dapat menghitung outlier untuk sampel data apa pun dengan kalkulator online.

Apa itu outlier?

Dalam statistik, outlier , disebut juga outlier atau outlier , adalah nilai yang berbeda secara signifikan dari kumpulan data lainnya. Dengan kata lain, outlier adalah nilai abnormal yang sangat berbeda dari nilai sampel lainnya.

Penting untuk mengidentifikasi outlier dalam suatu sampel karena outlier dapat mempengaruhi penghitungan ukuran statistik secara signifikan.

Misalnya, jika kita mempunyai seri data [1, 3, 5, 2, 79, 4, 8, 6], maka angka 79 jelas merupakan outlier. Karena nilainya jauh lebih tinggi daripada data lainnya. Dalam hal ini, mean yang menyertakan outlier adalah 13,5, sedangkan mean tanpa outlier adalah 4,14. Seperti yang Anda lihat, satu outlier sudah mempengaruhi hasil pengukuran statistik secara signifikan.

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

Biasanya, outlier mudah dibedakan dalam plot sebar karena terisolasi dari data lainnya. Lihatlah diagram sebar berikut, outliernya sangat terpisah dari nilai lainnya:

sebar outlier atau lainnya

👉 Anda dapat menggunakan kalkulator di bawah ini untuk menemukan outlier pada kumpulan data apa pun.

Cara menghitung outlier

Untuk menghitung outlier dari sampel data, langkah-langkah berikut harus diikuti:

  1. Hitung kuartil kumpulan data.
  2. Hitung rentang interkuartil data.
  3. Nilai yang tidak lazim (outlier) akan dianggap sebagai nilai yang memenuhi salah satu kondisi berikut:

Dalamplot kotak berikut, Anda dapat melihat dua outlier menurut kriteria ini yang direpresentasikan secara grafis:

outlier plot kotak

Catatan: Perlu diingat bahwa ada beberapa kriteria untuk menentukan batas di mana data dianggap outlier. Pada artikel ini kriteria uji Tukey dijadikan acuan karena paling banyak digunakan.

Contoh outlier

Mengingat definisi outlier, pada bagian ini kita akan melihat contoh praktis bagaimana mengidentifikasi outlier dalam suatu seri data.

  • Hitung pencilan atau outlier dari kumpulan data statistik berikut.

Pertama, kita menghitung tiga kuartil dari kumpulan data:

Q_1=4,06

Q_2=4,38

Q_3=4,66

Setelah kita menemukan ketiga kuartil, kita mencari rentang antarkuartil dengan mengurangkan kuartil 3 dikurangi kuartil 1:

IQR=Q_3-Q_1=4,66-4,06=0,6

Dan sekarang kita menghitung batasan yang ditetapkan oleh outlier. Untuk melakukan ini, kami menggunakan rumus yang dijelaskan pada bagian di atas:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

Jadi jika salah satu nilainya kurang dari 3,16 maka itu adalah outlier. Demikian pula, jika suatu nilai lebih besar dari 5,56, maka itu juga merupakan outlier.

Kesimpulannya, dalam hal ini kita mempunyai dua nilai ekstrim, karena 3,02 lebih kecil dari 3,16 dan 5,71 lebih besar dari 5,56.

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

Kalkulator Pencilan

Masukkan kumpulan data statistik ke dalam kalkulator berikut untuk menghitung outliernya, jika ada. Data harus dipisahkan dengan spasi dan dimasukkan menggunakan titik sebagai pemisah desimal.

Penyebab outlier

Ada beberapa kemungkinan penyebab outlier, yang paling umum adalah:

  • Alat yang digunakan untuk melakukan pengukuran rusak atau mengalami kecelakaan.
  • Bagian yang diukur mengalami cacat karena sebab yang tidak normal.
  • Telah terjadi kesalahan dalam transmisi atau transkripsi data.
  • Terjadi kesalahan manusia. Terlepas dari tindakan pencegahan yang diambil, kesalahan manusia tidak sepenuhnya dapat dihindari dan oleh karena itu nilai abnormal mungkin masih ada.

Ini adalah penyebab paling umum, tapi jelas alasannya bisa apa saja. Demikian pula, harus diingat bahwa ketika studi statistik dilakukan dengan banyak observasi, wajar jika beberapa outlier muncul.

Apa yang harus dilakukan dengan outlier

Pertanyaan umum ketika kita menemukan outlier adalah apa yang harus kita lakukan terhadapnya. Haruskah outlier dihilangkan dari sampel?

Dipercayai bahwa outlier harus selalu dihilangkan, karena merupakan data yang tidak menyerupai kumpulan data lainnya. Namun, meskipun outlier sangat mempengaruhi hasil beberapa ukuran statistik, bukan berarti outlier harus selalu dihilangkan.

Secara umum, outlier hanya boleh dihilangkan jika kita mengetahui bahwa penyebab anomali tersebut benar-benar dapat dibenarkan dan oleh karena itu, outlier tersebut adalah observasi yang tidak sesuai dengan apa yang sedang dipelajari.

Hal ini sangat penting terutama dalam ukuran sampel yang kecil, karena nilai ekstrem kemudian lebih memengaruhi metrik statistik.

Misalnya panjang suatu bagian suatu produk diukur untuk melakukan pengendalian kualitas, logikanya jika tiba-tiba muncul jenis produk lain dan bagian yang sama diukur, maka nilai terukurnya akan sangat berbeda dengan yang sebelumnya dan kemungkinan besar akan sama. menjadi orang asing. Dalam hal ini, outlier dapat dikesampingkan karena diketahui penyebabnya dan diketahui bahwa data yang diukur bukan merupakan bagian dari populasi yang ingin dianalisis.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *