Memahami hipotesis nol untuk regresi logistik


Regresi logistik adalah jenis model regresi yang dapat kita gunakan untuk memahami hubungan antara satu atau lebih variabel prediktor dan variabel respon ketika variabel responnya biner.

Jika kita hanya memiliki satu variabel prediktor dan satu variabel respon, kita dapat menggunakan regresi logistik sederhana , yang menggunakan rumus berikut untuk memperkirakan hubungan antar variabel:

log[p(X) / (1-p(X))] = β 0 + β 1

Rumus di sisi kanan persamaan memprediksi logaritma peluang variabel respons bernilai 1.

Regresi logistik sederhana menggunakan hipotesis nol dan alternatif berikut:

  • H 0 : 1 = 0
  • HA : β 1 ≠ 0

Hipotesis nol menyatakan bahwa koefisien β 1 sama dengan nol. Dengan kata lain, tidak terdapat hubungan yang signifikan secara statistik antara variabel prediktor x dan variabel respon y.

Hipotesis alternatif menyatakan bahwa β 1 tidak sama dengan nol. Dengan kata lain, terdapat hubungan yang signifikan secara statistik antara x dan y.

Jika kita memiliki beberapa variabel prediktor dan variabel respons, kita dapat menggunakan regresi logistik berganda , yang menggunakan rumus berikut untuk memperkirakan hubungan antar variabel:

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Regresi logistik berganda menggunakan hipotesis nol dan alternatif berikut:

  • H 0 : β 1 = β 2 = … = β k = 0
  • HA : β 1 = β 2 = … = β k ≠ 0

Hipotesis nol menyatakan bahwa semua koefisien dalam model sama dengan nol. Dengan kata lain, tidak ada satupun variabel prediktor yang mempunyai hubungan signifikan secara statistik dengan variabel respon y.

Hipotesis alternatif menyatakan bahwa tidak semua koefisien sama dengan nol secara bersamaan.

Contoh berikut menunjukkan cara memutuskan apakah akan menolak hipotesis nol dalam model regresi logistik sederhana dan regresi logistik berganda.

Contoh 1: regresi logistik sederhana

Misalkan seorang profesor ingin menggunakan jumlah jam belajar untuk memprediksi nilai ujian yang akan dicapai siswa di kelasnya. Ini mengumpulkan data dari 20 siswa dan menyesuaikan model regresi logistik sederhana.

Kita dapat menggunakan kode berikut di R agar sesuai dengan model regresi logistik sederhana:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Untuk menentukan apakah terdapat hubungan yang signifikan secara statistik antara jam belajar dan nilai ujian, kita perlu menganalisis nilai chi-kuadrat keseluruhan model dan nilai p yang sesuai.

Kita dapat menggunakan rumus berikut untuk menghitung nilai chi-kuadrat keseluruhan model:

X 2 = (Nol penyimpangan – Sisa penyimpangan) / (Nol Df – Sisa Df)

Nilai pnya ternyata 0,2717286 .

Karena nilai p ini tidak kurang dari 0,05, kita gagal menolak hipotesis nol. Dengan kata lain, tidak ada hubungan yang signifikan secara statistik antara jam belajar dan nilai ujian.

Contoh 2: Regresi logistik berganda

Misalkan seorang profesor ingin menggunakan jumlah jam belajar dan jumlah persiapan ujian yang diambil untuk memprediksi nilai yang akan diperoleh siswa di kelasnya. Ini mengumpulkan data dari 20 siswa dan menyesuaikan model regresi logistik berganda.

Kita dapat menggunakan kode berikut di R agar sesuai dengan model regresi logistik berganda:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

Nilai p untuk statistik chi-kuadrat keseluruhan model adalah 0,01971255 .

Karena nilai p ini kurang dari 0,05, kami menolak hipotesis nol. Dengan kata lain, terdapat hubungan yang signifikan secara statistik antara kombinasi jam belajar dan ujian persiapan yang diambil dan nilai akhir yang diperoleh pada ujian tersebut.

Sumber daya tambahan

Tutorial berikut memberikan informasi tambahan tentang regresi logistik:

Pengantar Regresi Logistik
Cara melaporkan hasil regresi logistik
Regresi logistik vs regresi linier: perbedaan utama

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *