Cara winsorisasi data: pengertian & contoh
Memperoleh data berarti menetapkan outlier ekstrem sama dengan persentil data tertentu.
Misalnya, winorisasi 90% menetapkan semua pengamatan di atas persentil ke-95 sama dengan nilai pada persentil ke-95 dan semua pengamatan di bawah persentil ke-5 sama dengan nilai pada persentil ke-5.
Memang benar, winorizing data berarti mengubah nilai ekstrim dari suatu kumpulan data ke nilai yang tidak terlalu ekstrim.
Contoh: Cara Winsorisasi Data
Misalkan kita memiliki kumpulan data berikut:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Untuk melakukan winorisasi 90% pada kumpulan data ini, pertama-tama kita cari persentil ke-5 dan persentil ke-95, yang hasilnya adalah:
- Persentil ke-5: 12,35
- Persentil ke-95: 92,05
Kami kemudian akan menetapkan semua nilai yang kurang dari 12,35 sama dengan 12,35 dan semua nilai yang lebih besar dari 92,05 sama dengan 92,05:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
Dalam hal ini, nilai 3 menjadi 12.35 dan nilai 98 menjadi 92.05 .
Mengapa melakukan Winsorisasi data?
Rata-rata dan deviasi standar adalah dua metode umum untuk mengukur lokasi pusat kumpulan data dan distribusi observasi dalam kumpulan data.
Namun, kedua ukuran ini dapat dipengaruhi oleh outlier yang ekstrim. Oleh karena itu, melakukan winorisasi data memungkinkan kita untuk menentukan outlier ekstrim yang sama dengan nilai yang kurang ekstrim.
Hal ini sering kali memungkinkan kita mendapatkan gambaran yang lebih akurat tentang mean dan deviasi standar kumpulan data.
Kemenangan emas plum
Cara umum lainnya untuk menangani outlier adalah dengan menghapusnya dari kumpulan data, yang berarti menghapusnya seluruhnya.
Misalnya, perhatikan kumpulan data sebelumnya:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Jika kita ingin menurunkan nilai di bawah persentil ke-5 atau di atas persentil ke-95, kita cukup menghilangkan nilai 3 dan 98 .
Berikut beberapa aturan praktis kapan menggunakan slicing atau winorization:
Pemangkasan: Masuk akal untuk memangkas nilai data ketika beberapa nilai tampak benar-benar tidak masuk akal, yaitu karena kesalahan entri data.
Winsorisasi: Masuk akal untuk melakukan winorisasi data ketika kita ingin menyimpan observasi yang berada pada kondisi ekstrem, namun tidak ingin mengartikannya terlalu harfiah.
Tindakan pencegahan terkait winorisasi data
Berikut beberapa hal yang perlu diingat ketika memutuskan untuk mendapatkan data:
1. Jika tidak ada outlier yang ekstrim, melakukan winorisasi data hanya akan sedikit mengubah nilai terkecil dan terbesar. Ini umumnya bukan ide yang baik karena ini berarti kita hanya mengubah nilai data dengan tujuan mengubahnya saja.
2. Pencilan dapat mewakili kasus-kasus tepi yang menarik dalam data. Jadi, sebelum Anda mengedit outlier, ada baiknya Anda melihat lebih dekat outlier tersebut untuk mengetahui apa penyebabnya.
3. Anda harus memutuskan apakah akan melakukan winorisasi data setelah pengumpulan data, bukan sebelumnya. Anda harus melihat apakah memang ada outlier ekstrim sebelum memutuskan untuk melakukan winorize. Jika tidak ada outlier ekstrim, maka winorisasi mungkin tidak diperlukan.
Tutorial: Winsorisasi data di Excel
Lihat tutorial ini untuk contoh langkah demi langkah tentang cara melakukan winorisasi kumpulan data di Excel.