Çoklu doğrusal regresyona giriş
Tek bir yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi anlamak istediğimizde genelliklebasit doğrusal regresyon kullanırız.
Ancak birden fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi anlamak istiyorsak çoklu doğrusal regresyon kullanabiliriz.
Eğer p tane öngörücü değişkenimiz varsa, çoklu doğrusal regresyon modeli şu formu alır:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
Altın:
- Y : Yanıt değişkeni
- X j : j’inci tahmin değişkeni
- βj : Diğer tüm belirleyicileri sabit tutarak, Xj’deki bir birimlik artışın Y üzerindeki ortalama etkisi
- ε : Hata terimi
β 0 , β 1 , B 2 , …, β p değerleri, artıkların karelerinin toplamını (RSS) en aza indiren en küçük kareler yöntemi kullanılarak seçilir:
RSS = Σ(y ben – ŷ ben ) 2
Altın:
- Σ : Toplam anlamına gelen bir Yunan sembolü
- y i : i’inci gözlem için gerçek yanıt değeri
- ŷ i : Çoklu doğrusal regresyon modeline dayalı olarak tahmin edilen yanıt değeri
Bu katsayı tahminlerini bulmak için kullanılan yöntem matris cebirine bağlıdır ve burada ayrıntılara girmeyeceğiz. Neyse ki herhangi bir istatistik yazılımı bu katsayıları sizin için hesaplayabilir.
Çoklu doğrusal regresyon çıktısı nasıl yorumlanır
Tahmin edici değişkenleri , çalışılan saatleri ve girilen hazırlık sınavlarının yanı sıra cevap değişkeni sınav puanını kullanarak çoklu doğrusal regresyon modeli uydurduğumuzu varsayalım.
Aşağıdaki ekran görüntüsü bu model için çoklu doğrusal regresyon sonucunun nasıl görünebileceğini göstermektedir:
Not: Aşağıdaki ekran görüntüsü Excel için çoklu doğrusal regresyon çıktısını gösterir, ancak çıktıda gösterilen sayılar herhangi bir istatistiksel yazılımı kullanarak göreceğiniz regresyon çıktısının tipik bir örneğidir.
Model sonuçlarından elde edilen katsayılar, tahmini bir çoklu doğrusal regresyon modeli oluşturmamıza olanak tanır:
Sınav puanı = 67,67 + 5,56*(saat) – 0,60*(hazırlık sınavları)
Katsayıları yorumlamanın yolu aşağıdaki gibidir:
- Deneme sınavlarının sabit kaldığı varsayıldığında, çalışma saatindeki her bir birimlik ilave artış, sınav puanında ortalama 5,56 puanlık bir artışla ilişkilidir.
- Hazırlık sınavlarındaki her bir birimlik artış , çalışılan saat sayısının sabit kaldığı varsayıldığında , sınav puanında ortalama 0,60 puanlık bir düşüşe yol açmaktadır.
Bu modeli aynı zamanda öğrencinin toplam ders saati ve girdiği hazırlık sınavlarına göre alacağı beklenen sınav notunu belirlemek için de kullanabiliriz. Örneğin 4 saat ders çalışıp 1 hazırlık sınavına giren bir öğrencinin sınav puanının 89,31 olması gerekir:
Sınav puanı = 67,67 + 5,56*(4) -0,60*(1) = 89,31
Model sonuçlarının geri kalanını şu şekilde yorumlayabilirsiniz:
- R-Kare: Buna belirleme katsayısı denir. Açıklayıcı değişkenler tarafından açıklanabilen yanıt değişkeninin varyansının oranıdır. Bu örnekte sınav puanlarındaki farklılığın %73,4’ü çalışılan saat ve girilen hazırlık sınavı sayısıyla açıklanmaktadır.
- Standart hata: Gözlemlenen değerler ile regresyon çizgisi arasındaki ortalama mesafedir. Bu örnekte gözlemlenen değerler regresyon doğrusundan ortalama 5.366 birim sapmaktadır.
- F: Bu, Regresyon MS/Kalan MS olarak hesaplanan, regresyon modelinin genel F istatistiğidir.
- F Anlamı: Bu, genel F istatistiğiyle ilişkili p değeridir. Bu bize regresyon modelinin bir bütün olarak istatistiksel olarak anlamlı olup olmadığını söyler. Başka bir deyişle, bize iki açıklayıcı değişkenin birleşiminin yanıt değişkeni ile istatistiksel olarak anlamlı bir ilişkiye sahip olup olmadığını söyler. Bu durumda p değeri 0,05’ten küçüktür; bu durum açıklayıcı değişkenlerin, çalışılan saatlerin ve girilen hazırlık sınavlarının birleşiminin sınav sonucuyla istatistiksel olarak anlamlı bir ilişkiye sahip olduğunu gösterir.
- Katsayının P değerleri. Bireysel p değerleri bize her açıklayıcı değişkenin istatistiksel olarak anlamlı olup olmadığını söyler. Çalışılan saatlerin istatistiksel olarak anlamlı olduğunu (p = 0,00), alınan hazırlık sınavlarının (p = 0,52) α = 0,05’te istatistiksel olarak anlamlı olmadığını görebiliriz. Geçmiş hazırlık sınavlarının istatistiksel olarak anlamlı olmaması nedeniyle onları modelden çıkarmaya karar verebiliriz.
Çoklu doğrusal regresyon modelinin uyumu nasıl değerlendirilir?
Çoklu doğrusal regresyon modelinin bir veri kümesine ne kadar iyi “uyduğunu” değerlendirmek için yaygın olarak iki sayı kullanılır:
1. R-kare: Yanıt değişkenindeki varyansın yordayıcı değişkenler tarafından açıklanabilen oranıdır.
R-kare değeri 0 ila 1 arasında değişebilir. 0 değeri, yanıt değişkeninin yordayıcı değişken tarafından hiçbir şekilde açıklanamayacağını gösterir. 1 değeri, yanıt değişkeninin yordayıcı değişken tarafından hatasız olarak mükemmel bir şekilde açıklanabileceğini gösterir.
Bir modelin R karesi ne kadar yüksek olursa, model verilere o kadar iyi uyum sağlayabilir.
2. Standart hata: Gözlemlenen değerler ile regresyon çizgisi arasındaki ortalama mesafedir. Standart hata ne kadar küçük olursa, model verilere o kadar iyi uyum sağlayabilir.
Bir regresyon modeli kullanarak tahminlerde bulunmak istiyorsak, regresyonun standart hatası R-kareden daha yararlı bir ölçüm olabilir çünkü bize tahminlerimizin birim cinsinden ne kadar doğru olduğuna dair bir fikir verir.
Model uyumunu değerlendirmek için R-kare ve standart hatanın kullanılmasının artıları ve eksileri hakkında tam bir açıklama için aşağıdaki makalelere bakın:
Çoklu Doğrusal Regresyon Varsayımları
Çoklu doğrusal regresyon, verilerle ilgili dört temel varsayımda bulunur:
1. Doğrusal ilişki: Bağımsız değişken x ile bağımlı değişken y arasında doğrusal bir ilişki vardır.
2. Bağımsızlık: Artıklar bağımsızdır. Özellikle zaman serisi verilerinde ardışık artıklar arasında bir korelasyon yoktur.
3. Homoskedastisite: Artıklar x’in her seviyesinde sabit bir varyansa sahiptir.
4. Normallik: Model artıkları normal dağılıma sahiptir.
Bu hipotezlerin nasıl test edileceğine ilişkin tam bir açıklama için bu makaleye bakın.
Yazılım kullanarak çoklu doğrusal regresyon
Aşağıdaki eğitimlerde, farklı istatistiksel yazılımlar kullanılarak çoklu doğrusal regresyonun nasıl gerçekleştirileceğine ilişkin adım adım örnekler verilmektedir:
R’de çoklu doğrusal regresyon nasıl gerçekleştirilir
Python’da çoklu doğrusal regresyon nasıl gerçekleştirilir
Excel’de çoklu doğrusal regresyon nasıl gerçekleştirilir
SPSS’de çoklu doğrusal regresyon nasıl gerçekleştirilir
Stata’da çoklu doğrusal regresyon nasıl gerçekleştirilir
Google E-Tablolarda doğrusal regresyon nasıl gerçekleştirilir?