Standardisasi atau normalisasi: apa bedanya?
Standardisasi dan normalisasi adalah dua cara untuk mengubah ukuran data.
Normalisasi menskalakan kumpulan data agar memiliki rata-rata 0 dan deviasi standar 1. Untuk melakukannya, rumus berikut digunakan:
x baru = ( xi – x ) / s
Emas:
- x i : nilai ke-i dari kumpulan data
- x : Maksud sampel
- s : simpangan baku sampel
Normalisasi mengubah ukuran kumpulan data sehingga setiap nilai berada di antara 0 dan 1. Hal ini dilakukan dengan menggunakan rumus berikut:
x baru = ( xi – x menit ) / (x maks – x menit )
Emas:
- x i : nilai ke-i dari kumpulan data
- x min : Nilai minimum dalam kumpulan data
- x max : Nilai maksimum dalam kumpulan data
Contoh berikut menunjukkan cara membakukan dan menormalkan kumpulan data dalam praktiknya.
Contoh: Bagaimana standarisasi data
Misalkan kita memiliki kumpulan data berikut:
Nilai rata-rata pada dataset adalah 43,15 dan standar deviasinya adalah 22,13.
Untuk menormalkan nilai pertama 13 , kami akan menerapkan rumus yang dibagikan sebelumnya:
- x baru = ( xi – x ) / s = (13 – 43.15) / 22.13 = -1.36
Untuk menormalkan nilai kedua dari 16 , kita akan menggunakan rumus yang sama:
- x baru = ( xi – x ) / s = (16 – 43.15) / 22.13 = -1.23
Untuk menormalkan nilai ketiga dari 19 , kita akan menggunakan rumus yang sama:
- x baru = ( xi – x ) / s = (19 – 43.15) / 22.13 = -1.09
Kita dapat menggunakan rumus yang sama persis untuk menstandarkan setiap nilai dalam kumpulan data asli:
Contoh : Cara normalisasi data
Sekali lagi, misalkan kita memiliki kumpulan data berikut:
Nilai minimum pada dataset adalah 13 dan nilai maksimum adalah 71.
Untuk menormalkan nilai pertama 13 , kami akan menerapkan rumus yang dibagikan sebelumnya:
- x baru = ( xi – x menit ) / (x maks – x menit ) = (13 – 13) / (71 – 13) = 0
Untuk menormalkan nilai kedua dari 16 , kita akan menggunakan rumus yang sama:
- x baru = ( xi – x menit ) / (x maks – x menit ) = (16 – 13) / (71 – 13) = 0,0517
Untuk menormalkan nilai ketiga dari 19 , kita akan menggunakan rumus yang sama:
- x baru = ( xi – x menit ) / (x maks – x menit ) = (19 – 13) / (71 – 13) = 0,1034
Kita dapat menggunakan rumus yang sama persis untuk menormalkan setiap nilai dalam kumpulan data asli antara 0 dan 1:
Standardisasi atau normalisasi: kapan menggunakannya?
Biasanya, kita menormalkan data ketika kita melakukan suatu jenis analisis di mana kita memiliki beberapa variabel yang diukur pada skala berbeda dan kita ingin setiap variabel memiliki rentang yang sama.
Hal ini mencegah satu variabel mempunyai pengaruh yang tidak semestinya, terutama jika variabel tersebut diukur dalam satuan yang berbeda (yaitu jika satu variabel diukur dalam inci dan variabel lainnya dalam yard).
Di sisi lain, kami biasanya menormalkan data ketika kami ingin mengetahui berapa banyak standar deviasi setiap nilai dalam kumpulan data dari mean.
Misalnya, kita mungkin memiliki daftar nilai ujian untuk 500 siswa di sekolah tertentu dan kita ingin mengetahui berapa banyak standar deviasi setiap nilai ujian dari nilai rata-rata.
Dalam hal ini, kita dapat menormalkan data mentah untuk mengetahui informasi ini. Kemudian, skor standar sebesar 1,26 akan memberi tahu kita bahwa nilai ujian siswa tersebut adalah 1,26 standar deviasi di atas nilai ujian rata-rata.
Baik Anda memutuskan untuk melakukan normalisasi atau standarisasi data, ingatlah hal-hal berikut:
- Kumpulan data yang dinormalisasi akan selalu memiliki nilai antara 0 dan 1.
- Kumpulan data yang distandarisasi akan memiliki rata-rata 0 dan deviasi standar 1, namun tidak ada batas atas atau bawah khusus untuk nilai maksimum dan minimum.
Bergantung pada skenario khusus Anda, mungkin lebih masuk akal untuk melakukan normalisasi atau standarisasi data.
Sumber daya tambahan
Tutorial berikut menjelaskan cara standarisasi dan normalisasi data dalam perangkat lunak statistik yang berbeda:
Cara menormalkan data di R
Cara normalisasi data di excel
Cara menormalkan data dengan Python
Bagaimana standarisasi data di R