Keuntungan & kerugian menggunakan deviasi standar
Deviasi standar suatu kumpulan data adalah cara untuk mengukur deviasi tipikal nilai individu dari nilai rata-rata.
Rumus untuk menghitung simpangan baku sampel, dilambangkan dengan s , adalah:
s = √ Σ( xi – x̄) 2 / (n – 1)
Emas:
- Σ : Simbol yang berarti “jumlah”
- x i : Nilai ke -i dalam kumpulan data
- x̄ : Rata-rata sampel
- n : Ukuran sampel
Ada dua keuntungan utama menggunakan standar deviasi untuk menggambarkan distribusi nilai dalam kumpulan data:
Keuntungan #1: Deviasi standar menggunakan semua observasi dalam kumpulan data dalam perhitungannya. Dalam statistik, secara umum kita mengatakan bahwa menggunakan semua observasi dalam kumpulan data untuk melakukan penghitungan adalah hal yang baik, karena kita menggunakan semua kemungkinan “informasi” yang tersedia dalam kumpulan data.
Keuntungan #2: Deviasi standar mudah diinterpretasikan . Deviasi standar adalah nilai tunggal yang memberi kita gambaran bagus tentang seberapa jauh observasi “tipikal” dalam kumpulan data dari nilai rata-rata.
Namun, penggunaan standar deviasi mempunyai kelemahan utama:
Kerugian #1: Deviasi standar dapat dipengaruhi oleh outlier . Jika terdapat outlier ekstrim dalam suatu kumpulan data, hal ini dapat meningkatkan nilai deviasi standar dan dengan demikian memberikan gambaran yang menyesatkan tentang distribusi nilai dalam suatu kumpulan data.
Contoh berikut memberikan informasi lebih lanjut tentang keuntungan dan kerugian menggunakan standar deviasi.
Keuntungan #1: Deviasi standar menggunakan semua observasi
Misalkan kita memiliki kumpulan data berikut yang menunjukkan distribusi nilai ujian siswa di suatu kelas:
Peringkat: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Kita dapat menggunakan kalkulator atau perangkat lunak statistik untuk menemukan bahwa standar deviasi sampel kumpulan data ini adalah 8,46.
Keuntungan menggunakan deviasi standar dalam contoh ini adalah kita menggunakan semua kemungkinan observasi dalam kumpulan data untuk menemukan “distribusi” nilai yang khas.
Sebaliknya, kita dapat menggunakan metrik lain seperti rentang interkuartil untuk mengukur distribusi nilai dalam kumpulan data ini.
Kita dapat menggunakan kalkulator untuk mencari rentang antarkuartil adalah 17,5 . Ini mewakili kesenjangan antara 50% tengah dari nilai-nilai dalam kumpulan data.
Sekarang misalkan kita mengubah nilai terendah dalam kumpulan data menjadi jauh lebih rendah:
Peringkat: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Kita dapat menggunakan kalkulator untuk mengetahui bahwa simpangan baku sampel adalah 18,37 .
Namun rentang antarkuartil masih 17,5 karena tidak ada satu pun dari 50% nilai tengah yang terpengaruh.
Hal ini menunjukkan bahwa deviasi standar sampel memperhitungkan semua observasi dalam kumpulan data dalam penghitungannya, tidak seperti ukuran dispersi lainnya.
Keuntungan #2: Deviasi standar mudah diinterpretasikan
Ingat kumpulan data berikut yang menunjukkan distribusi nilai ujian siswa di suatu kelas:
Peringkat: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Kami menggunakan kalkulator untuk menemukan bahwa standar deviasi sampel kumpulan data ini adalah 8,46 .
Hal ini mudah untuk ditafsirkan karena ini berarti bahwa deviasi nilai ujian “umum” adalah sekitar 8,46 dari nilai rata-rata ujian.
Di sisi lain, ukuran penyebaran lainnya tidak mudah untuk ditafsirkan.
Misalnya, koefisien variasi adalah ukuran dispersi lain yang mewakili rasio deviasi standar terhadap mean sampel.
Koefisien variasi: s/x̄
Dalam contoh ini, rata-rata nilai ujian adalah 81,46, sehingga koefisien variasi dihitung sebagai berikut: 8,46 / 81,46 = 0,104 .
Ini mewakili rasio deviasi standar sampel terhadap mean sampel, yang dapat berguna untuk membandingkan distribusi nilai di beberapa kumpulan data, namun tidak mudah untuk ditafsirkan sebagai metrik itu sendiri.
Kerugian #1: Deviasi standar dapat dipengaruhi oleh outlier
Misalkan kita memiliki kumpulan data berikut yang berisi informasi gaji untuk 10 karyawan (dalam ribuan dolar) di sebuah perusahaan:
Gaji: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
Standar deviasi sampel gaji adalah sekitar 15,57 .
Sekarang misalkan kita mempunyai kumpulan data yang sama persis, namun gaji tertinggi jauh lebih tinggi:
Gaji: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
Sampel standar deviasi gaji dalam kumpulan data ini adalah sekitar 262,47 .
Dengan memasukkan hanya satu outlier ekstrem, deviasi standar akan sangat terpengaruh dan kini memberikan gambaran yang menyesatkan tentang distribusi gaji “tipikal”.
Catatan : Jika terdapat outlier dalam kumpulan data, rentang antarkuartil dapat memberikan ukuran sebaran yang lebih baik karena tidak terpengaruh oleh outlier.
Sumber daya tambahan
Tutorial berikut memberikan informasi tambahan tentang penggunaan deviasi standar dalam statistik:
Rentang antarkuartil dan deviasi standar: perbedaannya
Koefisien variasi versus deviasi standar: perbedaan
Populasi vs. Contoh Deviasi Standar: Kapan Menggunakan Masing-masing