Panduan lengkap: kapan menghapus pencilan dalam data


Outlier adalah observasi yang jaraknya sangat jauh dari nilai lain dalam kumpulan data.

Pencilan dapat menjadi masalah karena dapat mempengaruhi hasil analisis.

Namun, mereka juga dapat memberikan wawasan tentang data yang Anda pelajari, karena mereka dapat mengungkapkan kasus-kasus abnormal atau individu dengan sifat-sifat langka.

Dalam analisis apa pun, Anda harus memutuskan apakah akan menghilangkan atau mempertahankan outlier.

Untungnya, Anda dapat menggunakan diagram alur berikut untuk membantu Anda mengambil keputusan:

diagram alur untuk memutuskan apakah akan menghilangkan outlier dalam data

Mari kita lihat lebih dekat setiap pertanyaan di diagram alur.

Apakah outlier tersebut disebabkan oleh kesalahan entri data?

Terkadang outlier dalam kumpulan data hanyalah akibat kesalahan entri data.

Misalnya, seorang ahli biologi mengumpulkan data tentang tinggi spesies tumbuhan tertentu dan mencatat data berikut:

  • 6,83 inci
  • 7,51 inci
  • 5,21 inci
  • 5,84 inci
  • 7,83 inci
  • 755 inci
  • 6,53 inci
  • 6,31 inci
  • 5,91 inci

Jelas sekali entri untuk 755 inci adalah outlier dan kemungkinan besar disebabkan oleh kesalahan entri data. Kemungkinan besar tingginya seharusnya 7,55 inci, tetapi yang dimasukkan salah.

Jika ahli biologi menyimpan pengamatan ini dan menghitung statistik deskriptif seperti rata-rata tinggi tanaman dalam sampel, pengamatan ini akan sangat menyimpangkan hasil dan memberikan gambaran yang tidak akurat tentang rata-rata tinggi tanaman yang sebenarnya.

Dalam skenario ini (dan skenario serupa), masuk akal untuk menghapus outlier ini dari kumpulan data karena ini merupakan kesalahan dan bukan titik data yang sah untuk disertakan dalam analisis.

Apakah outlier berpengaruh signifikan terhadap hasil analisis?

Jika suatu observasi benar-benar outlier dan bukan sekadar akibat kesalahan entri data, maka kita perlu memeriksa apakah outlier tersebut mempengaruhi hasil analisis atau tidak.

Misalnya, seorang ahli biologi sedang mempelajari hubungan antara pupuk dan tinggi tanaman. Ia ingin membuat model regresi linier sederhana dengan menggunakan pupuk sebagai variabel prediktor dan tinggi tanaman sebagai variabel respon .

Ini mengumpulkan data berikut untuk 12 pabrik berbeda:

Jelas bahwa pengamatan terakhir ini menyimpang.

Namun, jika kita membuat plot sebar untuk memvisualisasikan kumpulan data ini, kita dapat melihat bahwa garis regresi tidak akan banyak berubah, baik kita menyertakan outlier atau tidak:

Dalam skenario ini, outlier sebenarnya tidak melanggar asumsi model regresi linier apa pun, sehingga kami dapat menyimpannya dalam kumpulan data.

Namun, misalkan kita memiliki data outlier berikut:

Jelas sekali, outlier ini mempengaruhi garis regresi secara signifikan, sehingga kita dapat menyesuaikan satu model regresi dengan outlier dan satu model tanpa outlier, lalu melaporkan hasil dari kedua model regresi tersebut.

Apakah outlier mempengaruhi asumsi yang dibuat dalam analisis?

Jika outlier bukan merupakan akibat kesalahan pemasukan data dan tidak mempengaruhi hasil suatu analisis secara signifikan, maka kita harus mempertanyakan apakah outlier tersebut mempengaruhi hipotesis yang dibuat dalam suatu analisis atau tidak. analisis.

Kalau tidak mempengaruhi asumsi, kita simpan saja di data.

Namun, jika hal ini mempengaruhi asumsi, kami memiliki beberapa pilihan:

1. Hapus itu. Kami cukup menghapusnya dari data dan mencatatnya saat melaporkan hasil.

2. Melakukan transformasi pada data. Daripada menghilangkan outlier, kita bisa mencoba melakukan transformasi pada data, misalnya mengambil akar kuadrat atau log dari semua nilai pada data. Hal ini terbukti mengurangi outlier dan sering kali membuat data lebih terdistribusi secara normal .

Terlepas dari bagaimana Anda memutuskan untuk menangani outlier dalam data Anda, Anda harus mencatat keputusan Anda dalam hasil analisis beserta alasan Anda.

Sumber daya tambahan

Tutorial berikut menjelaskan cara menemukan dan menghapus outlier di berbagai perangkat lunak statistik:

Cara Menemukan Pencilan di Excel
Cara menemukan outlier di Google Sheets
Bagaimana menemukan outlier di R
Bagaimana menemukan outlier dengan Python
Cara mencari outlier di SPSS

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *