6 hipotesis regresi logistik (dengan contoh)
Regresi logistik adalah metode yang dapat kita gunakan untuk menyesuaikan model regresi ketika variabel responnya adalah biner.
Sebelum menyesuaikan model ke kumpulan data, regresi logistik membuat asumsi berikut:
Asumsi #1: variabel respon adalah biner
Regresi logistik mengasumsikan bahwa variabel respon hanya memiliki dua kemungkinan hasil. Berikut beberapa contohnya:
- ya atau tidak
- Laki laki atau perempuan
- Berhasil atau gagal
- Tertulis atau tidak tertulis
- Ganas atau jinak
Cara memeriksa asumsi ini: Cukup hitung jumlah hasil unik yang terjadi pada variabel respon. Jika terdapat lebih dari dua kemungkinan hasil, Anda perlu melakukan regresi ordinal .
Hipotesis #2: observasi bersifat independen
Regresi logistik mengasumsikan bahwa observasi dalam kumpulan data tidak bergantung satu sama lain. Artinya, observasi tidak boleh berasal dari pengukuran berulang terhadap individu yang sama atau terkait satu sama lain dengan cara apa pun.
Cara menguji hipotesis ini: Cara paling sederhana untuk menguji hipotesis ini adalah dengan membuat plot residu terhadap waktu (yaitu urutan pengamatan) dan mengamati apakah terdapat tren acak atau tidak. Jika tidak ada pola acak, asumsi ini bisa dilanggar.
Hipotesis #3: tidak terdapat multikolinearitas antar variabel penjelas
Regresi logistik mengasumsikan bahwa tidak ada multikolinearitas yang serius antara variabel penjelas .
Multikolinearitas terjadi ketika dua atau lebih variabel penjelas berkorelasi tinggi satu sama lain, sehingga tidak memberikan informasi unik atau independen dalam model regresi. Jika tingkat korelasi antar variabel cukup tinggi, hal ini dapat menimbulkan masalah saat menyesuaikan dan menafsirkan model.
Misalnya, Anda ingin melakukan regresi logistik menggunakan lompatan vertikal maksimum sebagai variabel respons dan variabel berikut sebagai variabel penjelas:
- Ukuran pemain
- Ukuran pemain
- Berjam-jam dihabiskan untuk berlatih per hari
Dalam hal ini, tinggi badan dan ukuran sepatu kemungkinan besar berkorelasi karena orang yang lebih tinggi cenderung memiliki ukuran sepatu yang lebih besar. Artinya multikolinearitas kemungkinan besar akan menjadi masalah jika kita menggunakan kedua variabel tersebut dalam regresi.
Cara memeriksa asumsi ini: Cara paling umum untuk mendeteksi multikolinearitas adalah dengan menggunakan variance inflasi faktor (VIF), yang mengukur korelasi dan kekuatan korelasi antar variabel prediktor dalam model regresi. Lihat tutorial ini untuk penjelasan mendetail tentang cara menghitung dan menafsirkan nilai VIF.
Asumsi #4: Tidak ada outlier yang ekstrim
Regresi logistik mengasumsikan bahwa tidak ada outlier ekstrim atau observasi yang berpengaruh dalam kumpulan data.
Cara memeriksa asumsi ini: Cara paling umum untuk menguji outlier ekstrem dan observasi berpengaruh dalam kumpulan data adalah dengan menghitung jarak Cook untuk setiap observasi. Jika memang terdapat outlier, Anda dapat memilih untuk (1) menghapusnya, (2) menggantinya dengan nilai seperti mean atau median, atau (3) menyimpannya dalam model namun mencatatnya saat melaporkan regresi. . hasil.
Hipotesis #5: Terdapat hubungan linier antara variabel penjelas dan logit variabel respon
Regresi logistik mengasumsikan adanya hubungan linier antara setiap variabel penjelas dan logit variabel respon. Ingatlah bahwa logit didefinisikan sebagai:
Logit(p) = log(p / (1-p)) dengan p adalah probabilitas hasil positif.
Cara menguji hipotesis ini: Cara termudah untuk mengetahui apakah hipotesis ini benar adalah dengan menggunakan uji Box-Tidwell.
Asumsi #6: Ukuran sampel cukup besar
Regresi logistik mengasumsikan bahwa ukuran sampel kumpulan data cukup besar untuk menarik kesimpulan yang valid dari model regresi logistik yang sesuai.
Cara memeriksa hipotesis ini: Sebagai aturan praktis, Anda harus memiliki minimal 10 kasus dengan hasil paling jarang untuk setiap variabel penjelas. Misalnya, jika Anda memiliki 3 variabel penjelas dan probabilitas yang diharapkan dari hasil yang paling jarang terjadi adalah 0,20, maka Anda harus memiliki ukuran sampel minimal (10*3) / 0,20 = 150 .
Asumsi Regresi Logistik vs. Regresi linier
Berbeda dengan regresi linier, regresi logistik tidak memerlukan:
- Hubungan linier antara variabel penjelas dan variabel respon.
- Residual model akan berdistribusi normal.
- Residual harus memiliki varian yang konstan, disebut juga homoskedastisitas .
Terkait: Empat Asumsi Regresi Linier
Sumber daya tambahan
4 Contoh Penggunaan Regresi Logistik dalam Kehidupan Nyata
Cara melakukan regresi logistik di SPSS
Cara Melakukan Regresi Logistik di Excel
Cara melakukan regresi logistik di Stata