Apa yang dimaksud dengan statistik pers?
Dalam statistik, kami menyesuaikan model regresi karena dua alasan:
(1) Menjelaskan hubungan antara satu atau lebih variabel penjelas dan suatu variabel respon .
(2) Memprediksi nilai suatu variabel respon berdasarkan nilai dari satu atau lebih variabel penjelas.
Ketika tujuan kami adalah (2) memprediksi nilai variabel respons, kami ingin memastikan bahwa kami menggunakan model regresi terbaik untuk melakukannya.
Salah satu metrik yang dapat kita gunakan untuk menemukan model regresi yang akan membuat prediksi terbaik pada data baru adalah statistik PRESS , yang merupakan singkatan dari “ prediksi jumlah sisa kuadrat ”.
Ini dihitung sebagai berikut:
TEKAN = Σ(e i / (1-h ii )) 2
Emas:
- e i : Residu ke -i.
- h ii : Ukuran pengaruh (juga disebut “leverage”) observasi ke-i terhadap kesesuaian model.
Dengan adanya beberapa model regresi, model dengan PRESS terendah harus dipilih sebagai model yang memiliki kinerja terbaik pada kumpulan data baru.
Contoh berikut menunjukkan cara menghitung statistik PRESS untuk tiga model regresi linier berbeda di R.
Contoh: Perhitungan statistik PRESS
Misalkan kita mempunyai kumpulan data dengan tiga variabel penjelas, x1 , x2 dan x3 , dan variabel respon y:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
Kode berikut menunjukkan cara menyesuaikan tiga model regresi berbeda ke kumpulan data ini menggunakan fungsi lm() :
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
Kode berikut menunjukkan cara menghitung statistik PRESS untuk setiap model.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
Ternyata model dengan statistik PRESS terendah adalah Model 2 dengan statistik PRESS sebesar 519.6435 . Oleh karena itu, kami akan memilih model ini yang paling cocok untuk membuat prediksi pada kumpulan data baru.
Sumber daya tambahan
Pengantar Regresi Linier Sederhana
Apa yang dimaksud dengan model pelit?
Berapa nilai R-kuadrat yang bagus?