Penjelasan sederhana tentang pentingnya statistik versus praktis
Hipotesis statistik adalah asumsi tentang parameter populasi . Misalnya, kita dapat berasumsi bahwa rata-rata tinggi badan pria di suatu daerah adalah 68 inci. Hipotesis mengenai tinggi badan adalah hipotesis statistik dan rata-rata tinggi badan sebenarnya seorang pria di Amerika Serikat adalah parameter populasi .
Uji hipotesis adalah uji statistik formal yang kita gunakan untuk menolak atau gagal menolak hipotesis statistik. Untuk melakukan pengujian hipotesis, kita memperoleh sampel acak dari populasi dan menentukan apakah data dalam sampel tersebut mungkin terjadi, mengingat hipotesis nol memang benar.
Jika data sampel cukup mustahil berdasarkan hipotesis ini, maka kita dapat menolak hipotesis nol dan menyimpulkan bahwa ada pengaruhnya.
Cara kita menentukan apakah data sampel “cukup mustahil” dengan asumsi kebenaran nol adalah dengan menetapkan tingkat signifikansi tertentu (biasanya dipilih 0,01, 0,05, atau 0,10), lalu periksa apakah nilai p uji hipotesis lebih kecil daripada tingkat signifikansi ini.
Jika nilai p lebih kecil dari tingkat signifikansi, maka hasilnya dikatakan signifikan secara statistik . Ini hanya berarti bahwa ada efek tertentu, tetapi tidak berarti bahwa efek ini benar-benar dapat diterapkan di dunia nyata. Hasilnya mungkin signifikan secara statistik namun tidak signifikan secara praktis .
Terkait: Penjelasan tentang nilai P dan signifikansi statistik
Pentingnya praktis
Pengujian hipotesis dapat menghasilkan hasil yang signifikan secara statistik, meskipun ukuran pengaruhnya kecil. Ada dua cara utama dimana ukuran efek yang kecil dapat menghasilkan nilai p yang rendah (dan karena itu signifikan secara statistik):
1. Variabilitas data sampel sangat rendah. Jika data sampel Anda memiliki variabilitas yang rendah, uji hipotesis dapat menghasilkan perkiraan pengaruh populasi yang lebih tepat, sehingga pengujian dapat mendeteksi efek yang kecil sekalipun.
Misalnya, kita ingin melakukan uji-t dua sampel independen pada dua sampel berikut yang menunjukkan nilai ujian 20 siswa dari dua sekolah berbeda untuk menentukan apakah rata-rata nilai ujian antar sekolah berbeda secara signifikan:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
Rata-rata sampel 1 adalah 85,55 dan rata-rata sampel 2 adalah 86,40 . Ketika kita melakukan uji-t dua sampel independen, ternyata statistik pengujiannya adalah -5,3065 dan nilai p yang sesuai adalah <0,0001 . Perbedaan antara hasil tes signifikan secara statistik.
Perbedaan rata-rata nilai ujian kedua sampel ini hanya sebesar 0,85 , namun rendahnya variabilitas nilai ujian tiap sekolah menghasilkan hasil yang signifikan secara statistik. Perhatikan bahwa deviasi standar skor adalah 0,51 untuk sampel 1 dan 0,50 untuk sampel 2.
Variabilitas yang rendah inilah yang memungkinkan uji hipotesis mendeteksi perbedaan kecil antara skor dan memungkinkan perbedaan tersebut menjadi signifikan secara statistik.
Alasan mendasar mengapa variabilitas rendah dapat menghasilkan kesimpulan yang signifikan secara statistik adalah bahwa statistik uji -t untuk uji-t dua sampel independen dihitung sebagai berikut:
statistik uji t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
dimana s 2 1 dan s 2 2 masing-masing menunjukkan variasi sampel untuk sampel 1 dan sampel 2. Perhatikan bahwa jika kedua bilangan ini kecil, maka penyebut bilangan bulat dari statistik uji -t adalah kecil.
Dan jika dibagi dengan angka kecil, maka akan didapat angka yang besar. Artinya, statistik uji -t akan besar dan nilai p yang terkait akan kecil, sehingga memberikan hasil yang signifikan secara statistik.
2. Ukuran sampelnya sangat besar. Semakin besar ukuran sampel, semakin besar kekuatan statistik dari uji hipotesis, sehingga memungkinkan untuk mendeteksi efek yang kecil sekalipun. Hal ini dapat memberikan hasil yang signifikan secara statistik, meskipun terdapat dampak kecil yang mungkin tidak memiliki signifikansi praktis.
Misalnya, kita ingin melakukan uji-t dua sampel independen pada dua sampel berikut yang menunjukkan nilai ujian 20 siswa dari dua sekolah berbeda untuk menentukan apakah rata-rata nilai ujian antar sekolah berbeda secara signifikan:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Jika kita membuat diagram kotak untuk setiap sampel guna menampilkan distribusi skor, kita dapat melihat bahwa keduanya terlihat sangat mirip:
Rata-rata sampel 1 adalah 90,65 dan rata-rata sampel 2 adalah 90,75 . Standar deviasi untuk sampel 1 adalah 2,77 dan standar deviasi untuk sampel 2 adalah 2,78 . Ketika kita melakukan uji-t dua sampel independen, ternyata statistik pengujiannya adalah -0,113 dan nilai p yang sesuai adalah 0,91 . Perbedaan antara nilai rata-rata tes tidak signifikan secara statistik.
Namun, pertimbangkan apakah ukuran sampel kedua sampel sama-sama 200 . Dalam kasus ini, uji t dua sampel independen akan menunjukkan bahwa statistik uji adalah -1,97 dan nilai p yang sesuai sedikit di bawah 0,05 . Perbedaan antara nilai tes rata-rata signifikan secara statistik.
Alasan mendasar mengapa ukuran sampel yang besar dapat menghasilkan kesimpulan yang signifikan secara statistik sekali lagi berasal dari statistik uji -t untuk uji-t dua sampel independen:
statistik uji t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
Perhatikan bahwa jika n 1 dan n 2 kecil, penyebut bilangan bulat dari statistik uji-t adalah kecil. Dan jika dibagi dengan angka kecil, maka akan didapat angka yang besar. Artinya, statistik uji -t akan besar dan nilai p yang terkait akan kecil, sehingga memberikan hasil yang signifikan secara statistik.
Gunakan keahlian materi pelajaran untuk menilai kepentingan praktis
Untuk menentukan apakah hasil uji hipotesis yang signifikan secara statistik bermakna secara praktis, keahlian materi pelajaran sering kali diperlukan.
Dalam contoh sebelumnya, ketika kita menguji perbedaan antara nilai ujian dari dua sekolah, akan sangat membantu jika kita memiliki keahlian seseorang yang bekerja di sekolah tersebut atau yang mengelola jenis tes ini untuk membantu kita menentukan apakah perbedaan rata-ratanya adalah 1 titiknya ada atau tidak. mempunyai implikasi praktis.
Misalnya, selisih rata-rata 1 poin mungkin signifikan secara statistik pada tingkat alfa = 0,05, namun apakah itu berarti sekolah dengan nilai terendah harus mengadopsi program yang lebih tinggi yang digunakan oleh sekolah dengan nilai tertinggi? Atau apakah hal ini memerlukan biaya administrasi yang terlalu besar dan terlalu mahal/terlalu cepat untuk diterapkan?
Hanya karena terdapat perbedaan nilai ujian yang signifikan secara statistik antara dua sekolah tidak berarti besarnya pengaruh perbedaan tersebut cukup besar untuk menyebabkan perubahan tertentu dalam sistem pendidikan.
Menggunakan interval kepercayaan untuk menilai signifikansi praktis
Alat lain yang berguna untuk menentukan signifikansi praktis adalah interval kepercayaan . Interval kepercayaan memberi kita rentang nilai yang kemungkinan besar berada di dalam parameter populasi sebenarnya.
Sebagai contoh, mari kita kembali ke contoh membandingkan perbedaan nilai ujian antara dua sekolah. Seorang kepala sekolah dapat menyatakan bahwa perbedaan skor rata-rata minimal 5 poin diperlukan agar sekolah dapat mengadopsi program baru.
Dalam sebuah penelitian, kita dapat melihat bahwa perbedaan rata-rata antara nilai ujian adalah 8 poin. Namun, interval kepercayaan di sekitar rata-rata ini bisa jadi [4, 12], yang menunjukkan bahwa 4 bisa jadi merupakan perbedaan sebenarnya antara hasil tes rata-rata. Dalam hal ini, kepala sekolah dapat menyimpulkan bahwa sekolah tidak akan mengubah program karena selang kepercayaan menunjukkan bahwa perbedaan sebenarnya bisa kurang dari 5.
Namun, dalam penelitian lain kita dapat melihat bahwa perbedaan rata-rata antara hasil tes adalah 8 poin lagi, namun interval kepercayaan di sekitar rata-rata tersebut bisa jadi [6, 10]. Karena interval ini tidak mengandung 5 , direktur kemungkinan besar akan menyimpulkan bahwa perbedaan sebenarnya antara nilai tes lebih besar dari 5 dan dengan demikian menentukan bahwa masuk akal untuk memodifikasi program.
Kesimpulan
Kesimpulannya, inilah yang kami pelajari:
- Signifikansi yang bersifat statistik saja menunjukkan apakah terdapat pengaruh berdasarkan tingkat signifikansi tertentu.
- Pentingnya secara praktis adalah apakah efek ini mempunyai implikasi praktis di dunia nyata atau tidak.
- Kami menggunakan analisis statistik untuk menentukan signifikansi statistik dan keahlian domain untuk menilai signifikansi praktis.
- Effect size yang kecil dapat menghasilkan nilai p yang kecil ketika (1) variabilitas data sampel sangat kecil dan ketika (2) ukuran sampel sangat besar.
- Dengan menetapkan ukuran dampak minimum sebelum melakukan uji hipotesis, kita dapat menilai dengan lebih baik apakah hasil uji hipotesis (meskipun signifikan secara statistik) benar-benar dapat diterapkan di dunia nyata.
- Interval kepercayaan dapat berguna dalam menentukan signifikansi praktis. Jika ukuran efek minimum tidak berada dalam interval kepercayaan, maka hasilnya mungkin signifikan.