Apa kesalahan prediksi dalam statistik? (definisi & contoh)
Dalam statistik, kesalahan prediksi mengacu pada perbedaan antara nilai yang diprediksi oleh model tertentu dan nilai sebenarnya.
Kesalahan prediksi sering digunakan dalam dua konteks:
1. Regresi linier: digunakan untuk memprediksi nilai variabel respon kontinu.
Kami biasanya mengukur kesalahan prediksi model regresi linier dengan metrik yang dikenal sebagai RMSE , yang merupakan singkatan dari root mean square error.
Ini dihitung sebagai berikut:
RMSE = √ Σ(ŷ saya – kamu saya ) 2 / n
Emas:
- Σ adalah simbol yang berarti “jumlah”
- ŷ i merupakan nilai prediksi pada pengamatan ke i
- y i adalah nilai observasi untuk observasi ke-i
- n adalah ukuran sampel
2. Regresi logistik: digunakan untuk memprediksi nilai variabel respon biner.
Cara umum untuk mengukur kesalahan prediksi model regresi logistik adalah dengan menggunakan metrik yang dikenal sebagai tingkat kesalahan klasifikasi total.
Ini dihitung sebagai berikut:
Total tingkat kesalahan klasifikasi = (# prediksi salah / # total prediksi)
Semakin rendah nilai tingkat kesalahan klasifikasi, maka model tersebut semakin mampu memprediksi hasil variabel respon.
Contoh berikut menunjukkan cara menghitung kesalahan prediksi untuk model regresi linier dan model regresi logistik dalam praktiknya.
Contoh 1: Menghitung kesalahan prediksi dalam regresi linier
Misalkan kita menggunakan model regresi untuk memprediksi berapa banyak poin yang akan dicetak oleh 10 pemain dalam permainan bola basket.
Tabel berikut menunjukkan poin yang diprediksi oleh model dibandingkan dengan poin sebenarnya yang dicetak oleh para pemain:
Kami akan menghitung root mean square error (RMSE) sebagai berikut:
- RMSE = √ Σ(ŷ saya – kamu saya ) 2 / n
- RMSE = √(((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
- RMSE = 4
Kesalahan kuadrat rata-rata adalah 4. Hal ini menunjukkan bahwa deviasi rata-rata antara skor prediksi poin dan skor poin aktual adalah 4.
Terkait: Apa yang dianggap sebagai nilai RMSE yang baik?
Contoh 2: Menghitung kesalahan prediksi dalam regresi logistik
Misalkan kita menggunakan model regresi logistik untuk memprediksi apakah 10 pemain bola basket perguruan tinggi akan direkrut ke NBA atau tidak.
Tabel berikut menunjukkan hasil prediksi setiap pemain versus hasil sebenarnya (1 = disusun, 0 = belum disusun):
Kami akan menghitung total tingkat kesalahan klasifikasi sebagai berikut:
- Total tingkat kesalahan klasifikasi = (# prediksi salah / # total prediksi)
- Tingkat kesalahan klasifikasi total = 4/10
- Total tingkat kesalahan klasifikasi = 40%
Tingkat kesalahan klasifikasi total adalah 40% .
Nilai ini cukup tinggi, menunjukkan bahwa model tersebut tidak berfungsi dengan baik dalam memprediksi apakah seorang pemain akan direkrut atau tidak.
Sumber daya tambahan
Tutorial berikut memberikan pengenalan tentang berbagai jenis metode regresi:
Pengantar Regresi Linier Sederhana
Pengantar Regresi Linier Berganda
Pengantar Regresi Logistik