7 yaygın regresyon türü (ve ne zaman kullanılmalı)
Regresyon analizi istatistikte en sık kullanılan tekniklerden biridir.
Regresyon analizinin temel amacı, bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi en iyi şekilde tanımlayan bir modele uymaktır.
Bu yazıda, gerçek hayatta en sık kullanılan 7 regresyon modelini ve her bir regresyon türünün ne zaman kullanılacağını paylaşıyoruz.
1. Doğrusal regresyon
Doğrusal regresyon, bir veya daha fazla öngörücü değişken ile sayısal yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yordayıcı değişken(ler) ile yanıt değişkeni arasındaki ilişki oldukça doğrusaldır.
- Yanıt değişkeni sürekli bir sayısal değişkendir.
Örnek: Bir perakende şirketi, toplam satışları tahmin etmek için reklam harcamalarını kullanarak doğrusal bir regresyon modeli uygulayabilir.
Bu iki değişken arasındaki ilişki muhtemelen doğrusal olduğundan (reklam için harcanan daha fazla para genellikle daha fazla satışla sonuçlanır) ve yanıt değişkeni (toplam satışlar) sürekli bir sayısal değişken olduğundan, doğrusal bir regresyon modelini ayarlamak mantıklıdır.
Kaynak: Çoklu Doğrusal Regresyona Giriş
2. Lojistik regresyon
Lojistik regresyon, bir veya daha fazla öngörücü değişken ile ikili yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yanıt değişkeni ikili bir değişkendir: yalnızca iki değer alabilir.
Örnek: Tıbbi araştırmacılar, bir bireyin kalp krizi geçirme olasılığını tahmin etmek için egzersiz ve sigara içme alışkanlıklarını kullanarak bir lojistik regresyon modeli uydurabilirler.
Yanıt değişkeni (kalp krizi) ikili olduğundan (birey ya kalp krizi geçirir ya da geçirmez), lojistik regresyon modeline uymak uygundur.
Kaynak: Lojistik Regresyona Giriş
3. Polinom regresyonu
Polinom regresyon, bir veya daha fazla öngörücü değişken ile sayısal bir yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yordayıcı değişken(ler) ile yanıt değişkeni arasındaki ilişki doğrusal değildir.
- Yanıt değişkeni sürekli bir sayısal değişkendir.
Örnek: Psikologlar, belirli bir sektördeki çalışanların “genel mutluluğunu” tahmin etmek için “çalışılan saatleri” kullanarak polinom regresyonunu uydurabilirler.
Bu iki değişken arasındaki ilişki muhtemelen doğrusal değildir. Yani, saat sayısı arttıkça birey daha fazla mutluluk bildirebilir, ancak belirli bir çalışma saatinden sonra genel mutluluk muhtemelen azalacaktır. Yordayıcı değişken ile yanıt değişkeni arasındaki bu ilişki doğrusal olmadığından polinom regresyon modeline uymak mantıklıdır.
Kaynak: Polinom Regresyona Giriş
4. Sırt Regreyonu
Ridge regresyonu, bir veya daha fazla öngörücü değişken ile sayısal yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yordayıcı değişkenler yüksek derecede ilişkilidir ve çoklu doğrusallık bir sorun haline gelir.
- Yanıt değişkeni sürekli bir sayısal değişkendir.
Örnek: Bir basketbol veri bilimcisi, oyuncu maaşlarını tahmin etmek için sayılar, asistler ve ribaundlar gibi tahmin değişkenlerini kullanarak bir ridge regresyon modelini uydurabilir.
Daha iyi oyuncuların daha fazla sayı, asist ve ribaund alma eğiliminde olması nedeniyle, tahmin değişkenlerinin yüksek düzeyde korelasyona sahip olması muhtemeldir. Dolayısıyla çoklu doğrusallığın bir sorun olması muhtemeldir, dolayısıyla bu sorunu sırt regresyonu kullanarak en aza indirebiliriz.
Kaynak: Ridge Regresyonuna Giriş
5. Kement Regresyon
Kement regresyonu, Ridge regresyonuna çok benzer ve bir veya daha fazla öngörücü değişken ile sayısal yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yordayıcı değişkenler yüksek derecede ilişkilidir ve çoklu doğrusallık bir sorun haline gelir.
- Yanıt değişkeni sürekli bir sayısal değişkendir.
Örnek: Bir ekonomist, hane halkı gelirini tahmin etmek için toplam eğitim süresi, çalışılan saat ve yaşam maliyeti gibi tahmin edici değişkenleri kullanarak bir kement regresyon modeli uygulayabilir.
Daha eğitimli bireyler aynı zamanda yaşam maliyetlerinin daha yüksek olduğu şehirlerde yaşama ve daha fazla saat çalışma eğiliminde olduklarından, yordayıcı değişkenler muhtemelen yüksek oranda ilişkilidir. Dolayısıyla çoklu bağlantının bir sorun olması muhtemeldir, bu nedenle kement regresyonunu kullanarak bu sorunu en aza indirebiliriz.
Lasso regresyonunun ve Ridge regresyonunun oldukça benzer olduğunu unutmayın. Bir veri setinde çoklu doğrusallık bir sorun olduğunda, hangi modelin en iyi şekilde çalıştığını görmek için hem Lasso hem de Ridge regresyon modelinin uygun hale getirilmesi önerilir.
Kaynak: Kement Regresyonuna Giriş
6. Poisson regresyonu
Poisson regresyonu, bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yanıt değişkeni “sayım” verileridir; örneğin, haftada güneşli günlerin sayısı, yıllık trafik kazalarının sayısı, günlük yapılan aramaların sayısı vb.
Örnek: Bir üniversite, belirli bir üniversite programından mezun olan öğrencilerin sayısını, programa girdiklerindeki genel not ortalamalarına ve cinsiyetlerine göre incelemek için Poisson regresyonunu kullanabilir.
Bu durumda, yanıt değişkeni sayım verisi olduğundan (mezun olan öğrenci sayısını “sayabiliriz” – 200, 250, 300, 413 vb.), Poisson regresyonunun kullanılması uygundur.
Kaynak: Poisson Regresyonuna Giriş
7. Kantil regresyon
Kantil regresyon, bir veya daha fazla öngörücü değişken ile bir yanıt değişkeni arasındaki ilişkiyi tanımlayan bir regresyon modeline uymak için kullanılır.
Şu durumlarda kullanın:
- Yanıt değişkeninin belirli bir yüzdelik dilimini veya yüzdelik dilimini (örneğin 90. yüzdelik, 95. yüzdelik vb.) tahmin etmek istiyoruz.
Örnek: Bir profesör, çalışılan saat sayısına bağlı olarak sınav puanlarının beklenen yüzde 90’lık dilimini tahmin etmek için nicelik regresyonunu kullanabilir:
Bu durumda profesör yanıt değişkeninin (sınav puanları) belirli bir yüzdelik dilimini tahmin etmek istediğinden niceliksel regresyonun kullanılması uygundur.
Kaynak: Kantil Regresyona Giriş
Ek kaynaklar
Doğrusal Regresyonun Gerçek Hayatta Kullanımına 4 Örnek
Lojistik Regresyonun Gerçek Hayatta Kullanımına İlişkin 4 Örnek
ANOVA vs regresyon: fark nedir?
Tam Kılavuz: Regresyon Sonuçları Nasıl Raporlanır?