Apa asumsi normalitas dalam statistik?
Banyak uji statistik mengandalkan apa yang disebut asumsi normalitas .
Hipotesis ini menyatakan bahwa jika kita mengumpulkan banyak sampel acak independen dari suatu populasi dan menghitung nilai yang diinginkan (seperti mean sampel ), lalu membuat histogram untuk memvisualisasikan distribusi mean sampel, kita akan mengamati kurva lonceng yang sempurna.
Banyak teknik statistik yang membuat asumsi ini mengenai data, termasuk:
1. Uji t satu sampel : diasumsikan data sampel berdistribusi normal.
2. Uji t dua sampel : diasumsikan kedua sampel berdistribusi normal.
3. ANOVA : Diasumsikan residu model berdistribusi normal.
4. Regresi linier : Diasumsikan bahwa residu model berdistribusi normal.
Jika asumsi ini tidak dipenuhi, hasil pengujian ini menjadi tidak dapat diandalkan dan kita tidak dapat dengan yakin menggeneralisasikan kesimpulan yang diambil dari sampel data ke populasi secara keseluruhan. Inilah sebabnya mengapa penting untuk memeriksa apakah hipotesis ini terpenuhi.
Ada dua cara umum untuk memeriksa apakah asumsi normalitas ini terpenuhi:
1. Visualisasikan normalitas
2. Lakukan uji statistik formal
Bagian berikut menjelaskan grafik spesifik yang dapat Anda buat dan uji statistik spesifik yang dapat Anda lakukan untuk memeriksa normalitas.
Visualisasikan normalitas
Cara cepat dan informal untuk memeriksa apakah kumpulan data terdistribusi secara normal adalah dengan membuat plot histogram atau QQ.
1. Histogram
Jika histogram suatu kumpulan data kira-kira berbentuk lonceng, kemungkinan besar data tersebut terdistribusi secara normal.
2. Tanah QQ
Plot QQ, kependekan dari “quantile-quantile”, adalah jenis plot yang menampilkan kuantil teoretis di sepanjang sumbu x (yaitu lokasi data Anda jika mengikuti distribusi normal) dan kuantil sampel di sepanjang sumbu y. (yaitu di mana data Anda sebenarnya berada).
Jika nilai data mengikuti garis kira-kira lurus membentuk sudut 45 derajat, maka data dianggap berdistribusi normal.
Lakukan uji statistik formal
Anda juga dapat melakukan uji statistik formal untuk menentukan apakah kumpulan data terdistribusi secara normal.
Jika nilai p tes berada di bawah tingkat signifikansi tertentu (misalnya α = 0,05), maka Anda mempunyai cukup bukti untuk mengatakan bahwa data tidak terdistribusi normal.
Ada tiga uji statistik yang biasa digunakan untuk menguji normalitas:
1. Tes Jarque-Bera
- Cara Melakukan Tes Jarque-Bera di Excel
- Cara melakukan tes Jarque-Bera di R
- Cara melakukan tes Jarque-Bera dengan Python
2. Tes Shapiro-Wilk
3. Tes Kolmogorov-Smirnov
- Cara Melakukan Tes Kolmogorov-Smirnov di Excel
- Cara melakukan tes Kolmogorov-Smirnov di R
- Cara melakukan tes Kolmogorov-Smirnov dengan Python
Apa yang harus dilakukan jika asumsi normalitas dilanggar
Jika ternyata data Anda tidak terdistribusi secara normal, Anda memiliki dua pilihan:
1. Transformasikan data.
Salah satu opsinya adalah dengan mengubah data agar terdistribusi lebih normal. Transformasi umum meliputi:
- Transformasi Log: Ubah data dari y menjadi log(y) .
- Transformasi akar kuadrat: mengubah data dari y menjadi √y
- Transformasi akar pangkat tiga: Transformasi data dari y ke y 1/3
- Transformasi Box-Cox: Transformasi data menggunakan prosedur Box-Cox
Dengan melakukan transformasi tersebut, sebaran nilai data secara umum menjadi lebih terdistribusi secara normal.
2. Lakukan uji nonparametrik
Uji statistik yang membuat asumsi normalitas disebut uji parametrik . Namun ada juga tes non-parametrik yang tidak membuat asumsi normalitas.
Jika ternyata data Anda tidak terdistribusi normal, Anda cukup melakukan uji nonparametrik. Berikut adalah beberapa versi nonparametrik dari uji statistik umum:
Pengujian parametrik | Setara nonparametrik |
---|---|
Uji sampel t | Contoh tes peringkat yang ditandatangani Wilcoxon |
Uji-t dua sampel | Tes Mann–Whitney U |
Uji-t sampel berpasangan | Dua sampel uji peringkat Wilcoxon ditandatangani |
ANOVA satu arah | Tes Kruskal–Wallis |
Masing-masing uji non parametrik tersebut memungkinkan dilakukannya uji statistik tanpa memenuhi asumsi normalitas.
Sumber daya tambahan
Keempat hipotesis dirumuskan dalam uji T
Empat asumsi regresi linier
Empat hipotesis ANOVA