Lojistik regresyon ve doğrusal regresyon: temel farklar
En sık kullanılan regresyon modellerinden ikisi doğrusal regresyon ve lojistik regresyondur .
Her iki regresyon modeli türü de bir veya daha fazla öngörücü değişken ile bir yanıt değişkeni arasındaki ilişkiyi ölçmek için kullanılır, ancak iki model arasında birkaç önemli fark vardır:
İşte farklılıkların bir özeti:
Fark #1: Yanıt Değişkeni Türü
Yanıt değişkeni şu şekilde sürekli bir değer aldığında doğrusal bir regresyon modeli kullanılır:
- Fiyat
- Yükseklik
- Yaş
- Mesafe
Tersine, yanıt değişkeni aşağıdaki gibi kategorik bir değer aldığında lojistik regresyon modeli kullanılır:
- Evet veya hayır
- Erkek veya kadın
- Kazanmak ya da kazanmamak
Fark #2: kullanılan denklem
Doğrusal regresyon, yordayıcı değişken(ler) ile yanıt değişkeni arasındaki ilişkiyi özetlemek için aşağıdaki denklemi kullanır:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
Altın:
- Y: yanıt değişkeni
- X j : j’inci tahmin değişkeni
- βj : Diğer tüm belirleyicileri sabit tutarak, Xj’deki bir birimlik artışın Y üzerindeki ortalama etkisi
Tersine, lojistik regresyon aşağıdaki denklemi kullanır:
p(X) = e β 0 + β 1 X 1 + β 2 X 2 + … + β p
Bu denklem, bireysel bir gözlemin belirli bir kategoriye girme olasılığını tahmin etmek için kullanılır.
Fark #3: Denklemi sığdırmak için kullanılan yöntem
Doğrusal regresyon, en uygun regresyon denklemini bulmak için sıradan en küçük kareler olarak bilinen bir yöntemi kullanır.
Tersine, lojistik regresyon, en uygun regresyon denklemini bulmak için maksimum olabilirlik tahmini olarak bilinen bir yöntemi kullanır.
Fark #4: tahmin edilecek çıktı
Doğrusal regresyon, çıktı olarak sürekli bir değer öngörür. Örneğin:
- Fiyat (150$, 199$, 400$, vb.)
- Yükseklik (14 inç, 2 fit, 94,32 santimetre vb.)
- Yaş (2 ay, 6 yıl, 41,5 yıl vb.)
- Mesafe (1,23 mil, 4,5 kilometre vb.)
Tersine, lojistik regresyon olasılıkları bir sonuç olarak öngörür. Örneğin:
- Üniversiteye kabul edilme şansı %40,3.
- Bir oyunu kazanma şansı %93,2.
- Bir yasanın kabul edilme ihtimali %34,2.
Lojistik veya doğrusal regresyon ne zaman kullanılmalı?
Aşağıdaki uygulama problemleri, lojistik regresyonun veya doğrusal regresyonun ne zaman kullanılacağını daha iyi anlamanıza yardımcı olabilir.
Sorun #1: Yıllık Gelir
Bir iktisatçının, bireylerin yıllık gelirini tahmin etmek için tahmin edici değişkenleri (1) haftalık çalışma saati ve (2) yıllık eğitim kullanmak istediğini varsayalım.
Bu senaryoda yanıt değişkeni (yıllık gelir) sürekli olduğundan doğrusal regresyon kullanacaktır.
Sorun #2: Üniversiteye Kabul
Bir üniversiteye kabul memurunun, bir öğrencinin belirli bir üniversiteye kabul edilme olasılığını tahmin etmek için (1) GPA ve (2) ACT puanını öngören değişkenleri kullanmak istediğini varsayalım.
Bu senaryoda, yanıt değişkeni kategorik olduğundan ve yalnızca iki değer alabildiğinden lojistik regresyon kullanacaktır: kabul edildi veya kabul edilmedi.
Sorun 3: Gayrimenkul fiyatları
Bir emlakçının ev satış fiyatlarını tahmin etmek için tahmin değişkenlerini (1) metrekare, (2) yatak odası sayısı ve (3) banyo sayısı kullanmak istediğini varsayalım.
Bu senaryoda yanıt değişkeni (fiyat) sürekli olduğundan doğrusal regresyon kullanacaktır.
Sorun #4: Spam Tespiti
Bir bilgisayar programcısının, belirli bir e-postanın spam olma olasılığını tahmin etmek için tahmin değişkenlerini (1) kelime sayısı ve (2) menşe ülkesini kullanmak istediğini varsayalım.
Bu senaryoda, yanıt değişkeni kategorik olduğundan ve yalnızca iki değeri alabildiğinden lojistik regresyon kullanılacaktır: spam veya spam değil.
Ek kaynaklar
Aşağıdaki eğitimler doğrusal regresyon hakkında daha fazla ayrıntı sunmaktadır:
- Basit Doğrusal Regresyona Giriş
- Çoklu Doğrusal Regresyona Giriş
- Doğrusal Regresyonun Gerçek Hayatta Kullanımına İlişkin 4 Örnek
Aşağıdaki eğitimler lojistik regresyon hakkında daha fazla ayrıntı sunmaktadır: