Bagaimana pengaruh outlier terhadap mean?
Dalam statistik, rata-rata sekumpulan data adalah nilai rata-rata. Hal ini berguna untuk diketahui karena memberi kita gambaran di mana “pusat” dataset berada. Itu dihitung menggunakan rumus sederhana:
rata-rata = (jumlah observasi) / (jumlah observasi)
Misalnya, kita memiliki kumpulan data berikut:
[1, 4, 5, 6, 7]
Rata-rata datasetnya adalah (1+4+5+6+7) / (5) = 4,6
Namun meskipun rata-rata berguna dan mudah dihitung, rata-rata mempunyai kekurangan: dapat dipengaruhi oleh outlier . Secara khusus, semakin kecil kumpulan data, semakin besar pengaruh outlier terhadap mean.
Untuk mengilustrasikannya, perhatikan contoh klasik berikut:
Sepuluh pria sedang duduk di sebuah bar. Pendapatan rata-rata sepuluh orang adalah $50.000. Tiba-tiba seorang pria keluar dan Bill Gates masuk. Saat ini, pendapatan rata-rata sepuluh orang di bar adalah $40 juta.
Contoh ini menunjukkan bagaimana outlier (Bill Gates) dapat mempengaruhi rata-rata secara signifikan.
Pencilan kecil dan besar
Pencilan dapat mempengaruhi mean dengan menjadi sangat kecil atau sangat besar. Pada contoh sebelumnya, Bill Gates memiliki pendapatan yang luar biasa tinggi, sehingga rata-ratanya menyesatkan.
Namun, nilai yang sangat rendah juga dapat mempengaruhi rata-rata. Untuk mengilustrasikannya, perhatikan contoh berikut:
Sepuluh siswa mengikuti ujian dan memperoleh nilai berikut:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Skor rata-ratanya adalah 84,6 .
Namun jika kita menghilangkan skor “0” dari dataset, maka skor rata-ratanya menjadi 94 .
Nilai siswa yang luar biasa rendah menurunkan rata-rata keseluruhan kumpulan data.
Ukuran sampel dan outlier
Semakin kecil ukuran sampel kumpulan data, semakin besar kemungkinan outlier mempengaruhi mean.
Misalnya, kita memiliki kumpulan data 100 nilai ujian yang seluruh siswanya mendapat nilai minimal 90 atau lebih, kecuali satu siswa yang mendapat nilai nol:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
Rata-ratanya adalah 93,18 . Jika kita menghilangkan “0” dari kumpulan data, rata-ratanya adalah 94.12 . Ini adalah perbedaan yang relatif kecil. Hal ini menunjukkan bahwa outlier ekstrim sekalipun hanya memiliki efek minimal jika kumpulan datanya cukup besar.
Cara menangani outlier
Jika Anda khawatir akan adanya outlier dalam kumpulan data Anda, Anda memiliki beberapa opsi:
- Pastikan outlier tersebut bukan akibat kesalahan entri data. Terkadang seseorang memasukkan nilai data yang salah saat menyimpan data. Jika terdapat outlier, verifikasi terlebih dahulu bahwa nilai yang dimasukkan benar dan bukan kesalahan.
- Tetapkan nilai baru pada outlier . Jika outlier ternyata disebabkan oleh kesalahan entri data, Anda dapat memutuskan untuk memberinya nilai baru seperti mean atau median kumpulan data.
- Hapus outlier. Jika nilainya benar-benar outlier, Anda dapat memilih untuk menghapusnya jika nilai tersebut akan berdampak signifikan pada analisis Anda secara keseluruhan. Pastikan untuk menyebutkan dalam laporan akhir atau analisis Anda bahwa Anda telah menghapus outlier.
Gunakan mediannya
Cara lain untuk mencari “pusat” suatu kumpulan data adalah dengan menggunakan median , yang diperoleh dengan mengurutkan seluruh nilai individu dalam suatu kumpulan data dari terkecil hingga terbesar dan mencari nilai mediannya.
Karena cara penghitungannya, median tidak terlalu terpengaruh oleh outlier dan lebih baik menangkap lokasi pusat distribusi ketika terdapat outlier.
Misalnya, perhatikan grafik berikut yang menunjukkan luas persegi rumah di lingkungan tertentu:
Rata-rata sangat dipengaruhi oleh beberapa rumah yang sangat besar, sedangkan median tidak. Oleh karena itu, median berfungsi lebih baik dalam menangkap ukuran luas “tipikal” sebuah rumah di lingkungan tersebut dibandingkan rata-rata.
Bacaan lebih lanjut:
Ukuran tendensi sentral – mean, median dan mode
Uji Q Dixon untuk mendeteksi outlier
Kalkulator Pencilan