Apa yang dimaksud dengan keandalan antar penilai? (definisi & #038; contoh)


Dalam statistik, reliabilitas antar penilai adalah cara mengukur tingkat kesepakatan antara beberapa penilai atau juri.

Ini digunakan untuk menilai keandalan tanggapan yang dihasilkan oleh item yang berbeda dalam suatu tes. Jika sebuah tes memiliki reliabilitas antar penilai yang lebih rendah, hal ini dapat menunjukkan bahwa item tes tersebut membingungkan, tidak jelas, atau bahkan tidak membantu.

Ada dua cara umum untuk mengukur keandalan antar penilai:

1. Persentase persetujuan

Cara sederhana untuk mengukur reliabilitas antar penilai adalah dengan menghitung persentase item yang disetujui oleh juri.

Hal ini disebut persen kesepakatan , yang selalu berada di antara 0 dan 1, dengan 0 menunjukkan tidak ada kesepakatan di antara para penilai dan 1 menunjukkan kesepakatan sempurna di antara para penilai.

Misalnya, dua juri diminta menilai tingkat kesulitan 10 soal suatu tes dengan skala 1 sampai 3. Hasilnya ditunjukkan di bawah ini:

Untuk setiap pertanyaan, kita dapat menulis “1” jika kedua juri setuju dan “0” jika keduanya tidak setuju.

Persentase soal yang disetujui juri adalah 7/10 = 70% .

2. Kappa Cohen

Cara yang paling sulit (dan paling ketat) untuk mengukur reliabilitas antar penilai adalah dengan menggunakan Kappa Cohen , yang menghitung persentase item yang disetujui oleh penilai, dengan tetap mempertimbangkan bahwa Penilai mungkin hanya menyetujui elemen tertentu. Untung.

Rumus kappa Cohen dihitung sebagai berikut:

k = ( pope ) / (1 – pe )

Emas:

  • p o : Kesepakatan relatif yang diamati di antara para evaluator
  • pe : Probabilitas hipotetis dari kesepakatan kebetulan

Kappa Cohen selalu berkisar antara 0 dan 1, dengan 0 menunjukkan tidak adanya kesepakatan antara penilai dan 1 menunjukkan kesepakatan sempurna antar penilai.

Untuk contoh langkah demi langkah cara menghitung Kappa Cohen, lihat tutorial ini .

Bagaimana menafsirkan keandalan antar penilai

Semakin tinggi reliabilitas antar penilai, semakin konsisten beberapa juri menilai item atau pertanyaan pada tes dengan skor serupa.

Secara umum, kesepakatan antar penilai minimal 75% diperlukan di sebagian besar wilayah agar suatu tes dianggap dapat diandalkan. Namun, keandalan antar penilai yang lebih tinggi mungkin diperlukan dalam domain tertentu.

Misalnya, reliabilitas antar penilai sebesar 75% mungkin dapat diterima untuk suatu tes guna menentukan seberapa baik suatu program televisi akan diterima.

Di sisi lain, keandalan antar penilai sebesar 95% mungkin diperlukan dalam situasi medis di mana banyak dokter menilai apakah pengobatan tertentu harus digunakan pada pasien tertentu atau tidak.

Perhatikan bahwa di sebagian besar lingkungan akademis dan bidang penelitian yang ketat, Kappa Cohen digunakan untuk menghitung keandalan antar penilai.

Sumber daya tambahan

Pengantar Singkat Analisis Keandalan
Apa keandalan yang terbagi dua?
Apa yang dimaksud dengan reliabilitas tes-tes ulang?
Apa yang dimaksud dengan keandalan bentuk paralel?
Apa yang dimaksud dengan kesalahan standar pengukuran?
Kalkulator Kappa Cohen

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *