Tam kılavuz: lojistik regresyon sonuçları nasıl raporlanır?
Lojistik regresyon, yanıt değişkeni ikili olduğunda kullandığımız bir regresyon analizi türüdür.
Lojistik regresyon modelinin sonuçlarını raporlamak için aşağıdaki genel formatı kullanabiliriz:
[Yordayıcı değişken 1], [yordayıcı değişken 2],…[yordayıcı değişken n ] ve [yanıt değişkeni] arasındaki ilişkiyi analiz etmek için lojistik regresyon kullanıldı.
Diğer tüm yordayıcı değişkenler sabit tutulduğunda, bir birimlik artış için [yanıt değişkeninin] ortaya çıkma olasılığının [yüzde birkaç] (%95 GA [alt sınır, üst sınır]) kadar [arttığı veya azaldığı] bulunmuştur. [tahmin edici değişken 1].
Diğer tüm yordayıcı değişkenler sabit tutulduğunda, bir birimlik artış için [yanıt değişkeninin] ortaya çıkma olasılığının [yüzde birkaç] (%95 GA [alt sınır, üst sınır]) kadar [arttığı veya azaldığı] bulunmuştur. [tahmin değişkeni 2].
…
Bu temel söz dizimini, olasılık oranlarını ve modeldeki her öngörücü değişkenin olasılık oranlarına karşılık gelen %95 güven aralığını raporlamak için kullanabiliriz.
Aşağıdaki örnek, lojistik regresyon modelinin sonuçlarının pratikte nasıl raporlanacağını göstermektedir.
Örnek: Lojistik Regresyon Sonuçlarının Raporlanması
Bir profesörün iki farklı çalışma programının (Program A ve Program B) ve çalışılan saat sayısının bir öğrencinin sınıfının final sınavını geçme olasılığını etkileyip etkilemediğini anlamak istediğini varsayalım.
Tahmin edici değişkenler olarak çalışma saatlerini ve çalışma programını ve yanıt değişkeni olarak sınav sonucunu (geçme veya kalma) kullanan bir lojistik regresyon modeline uyar.
Aşağıdaki çıktı lojistik regresyon modelinin sonuçlarını gösterir:
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.415 0.623 -3.876 <0.000 program_A 0.344 0.156 2.205 0.027 hours 0.006 0.002 3.000 0.003
Lojistik regresyon modelinin sonuçlarını raporlamadan önce, e β formülünü kullanarak her bir yordayıcı değişken için olasılık oranını hesaplamalıyız.
Örneğin, her öngörücü değişken için olasılık oranının nasıl hesaplanacağı aşağıda açıklanmıştır:
- Program olasılık oranı: e 0,344 = 1,41
- Saatin oran oranı: e 0,006 = 1,006
Ayrıca e (β +/- 1,96*standart hata) formülünü kullanarak her tahmin edici değişkenin olasılık oranı için %95 güven aralığını hesaplamamız gerekir.
Örneğin, her öngörücü değişken için olasılık oranının nasıl hesaplanacağı aşağıda açıklanmıştır:
- Program olasılık oranı için %95 GA: e 0,344 +/- 1,96*0,156 = [1,04, 1,92]
- Saatlik olasılık oranı için %95 GA: e 0,006 +/- 1,96*0,002 = [1,002, 1,009]
Artık her bir yordayıcı değişken için olasılık oranını ve karşılık gelen güven aralığını hesapladığımıza göre, model sonuçlarını aşağıdaki gibi raporlayabiliriz:
Final sınavını geçme olasılığı üzerinde müfredat ile çalışılan saat arasındaki ilişkiyi analiz etmek için lojistik regresyon kullanıldı.
Çalışma saati sayısı sabit tutulduğunda, final sınavını geçme şansının, çalışma programı A’ya karşı çalışma programı B’yi kullanan öğrenciler için %41 (%95 GA [0,04, 0,92]) arttığı bulunmuştur.
Ayrıca çalışma programı sabit tutulduğunda, final sınavını geçme ihtimalinin çalışılan her ek saat için %0,6 (%95 GA [0,002, 0,009]) arttığı da bulunmuştur.
Olasılık oranlarının yorumlanması ve anlaşılması daha kolay olduğundan, tahmin edici değişkenler için model beta değerleri yerine olasılık oranlarını rapor ettiğimizi unutmayın.
Ek kaynaklar
Aşağıdaki eğitimler lojistik regresyon hakkında ek bilgi sağlar:
Lojistik Regresyona Giriş
R’de lojistik regresyon nasıl gerçekleştirilir
Python’da Lojistik Regresyon Nasıl Gerçekleştirilir
Lojistik Regresyonun Gerçek Hayatta Kullanımına İlişkin 4 Örnek