Bagaimana menafsirkan keluaran regresi di r


Untuk menyesuaikan model regresi linier di R, kita dapat menggunakan perintah lm() .

Untuk menampilkan keluaran model regresi, kita dapat menggunakan perintah ringkasan() .

Tutorial ini menjelaskan cara menginterpretasikan setiap nilai keluaran regresi di R.

Contoh: Menafsirkan Output Regresi di R

Kode berikut menunjukkan cara menyesuaikan model regresi linier berganda dengan kumpulan data mtcars terintegrasi menggunakan hp , drat dan wt sebagai variabel prediktor dan mpg sebagai variabel respons:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Berikut cara menafsirkan setiap nilai dalam output:

Panggilan

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Bagian ini mengingatkan kita pada rumus yang kita gunakan dalam model regresi. Kita dapat melihat bahwa kita menggunakan mpg sebagai variabel respon dan hp , drat dan wt sebagai variabel prediktor. Setiap variabel berasal dari kumpulan data yang disebut mtcars .

Residu

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Bagian ini menampilkan ringkasan sebaran residu dari model regresi. Ingatlah bahwa residu adalah selisih antara nilai observasi dan nilai prediksi model regresi.

Residu minimum sebesar -3,3598 , residu median sebesar -0,5099 , dan residu maksimum sebesar 5,7078 .

Koefisien

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Bagian ini menampilkan estimasi koefisien model regresi. Kita dapat menggunakan koefisien ini untuk membentuk estimasi persamaan regresi berikut:

mpg = 29.39 – 0.03*hp + 1.62*drat – 3.23*berat

Untuk setiap variabel prediktor, kami menerima nilai berikut:

Estimasi: estimasi koefisien. Hal ini menunjukkan kepada kita peningkatan rata-rata dalam variabel respons yang terkait dengan peningkatan satu unit dalam variabel prediktor, dengan asumsi semua variabel prediktor lainnya tetap konstan.

Standar. Kesalahan : Ini adalah kesalahan standar koefisien. Ini adalah ukuran ketidakpastian estimasi koefisien kami.

t-value: Ini adalah t-statistik untuk variabel prediktor, dihitung sebagai (Estimate) / (Standard Error).

Pr(>|t|): Ini adalah nilai p yang sesuai dengan statistik t. Jika nilai ini berada di bawah tingkat alfa tertentu (misalnya 0,05), maka variabel prediktif dikatakan signifikan secara statistik.

Jika kita menggunakan tingkat alfa α = 0,05 untuk menentukan prediktor mana yang signifikan dalam model regresi ini, kita dapat mengatakan bahwa hp dan wt merupakan prediktor yang signifikan secara statistik, sedangkan drat tidak.

Penilaian kecukupan model

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Bagian terakhir ini menampilkan berbagai angka yang membantu kita menilai seberapa cocok model regresi dengan kumpulan data kita.

Kesalahan standar sisa: Ini memberi tahu kita jarak rata-rata antara nilai yang diamati dan garis regresi. Semakin kecil nilainya maka semakin baik model regresi tersebut mampu menyesuaikan data.

Derajat kebebasan dihitung sebagai nk-1 dimana n = jumlah observasi dan k = jumlah prediktor. Dalam contoh ini mtcars memiliki 32 observasi dan kami menggunakan 3 prediktor dalam model regresi, sehingga derajat kebebasannya adalah 32 – 3 – 1 = 28.

Kelipatan R-kuadrat: Ini disebut koefisien determinasi. Ini memberitahu kita seberapa besar varians dalam variabel respon dapat dijelaskan oleh variabel prediktor.

Nilai ini berkisar antara 0 sampai 1. Semakin mendekati 1 maka variabel prediktor semakin mampu memprediksi nilai variabel respon.

R-squared yang disesuaikan: Ini adalah versi modifikasi dari R-squared yang telah disesuaikan berdasarkan jumlah prediktor dalam model. Itu selalu kurang dari R kuadrat.

R-kuadrat yang disesuaikan dapat berguna untuk membandingkan kesesuaian model regresi berbeda yang menggunakan jumlah variabel prediktor berbeda.

F-statistik: Menunjukkan apakah model regresi memberikan kesesuaian yang lebih baik dengan data dibandingkan model yang tidak memuat variabel independen. Pada dasarnya, ini menguji apakah model regresi secara keseluruhan bermanfaat.

nilai-p: Ini adalah nilai-p yang sesuai dengan statistik F. Jika nilai ini berada di bawah tingkat signifikansi tertentu (misalnya 0,05), maka model regresi lebih cocok dengan data dibandingkan model tanpa prediktor.

Saat membangun model regresi, kami berharap nilai p ini berada di bawah tingkat signifikansi tertentu, karena ini menunjukkan bahwa variabel prediktor benar-benar berguna dalam memprediksi nilai variabel respon.

Sumber daya tambahan

Cara melakukan regresi linier sederhana di R
Cara melakukan regresi linier berganda di R
Berapa nilai R-kuadrat yang bagus?

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *