Regresyon tablosu nasıl okunmalı ve yorumlanmalı
İstatistikte regresyon , yordayıcı değişkenler ile bir yanıt değişkeni arasındaki ilişkiyi analiz etmek için kullanılabilecek bir tekniktir.
Regresyon analizini gerçekleştirmek için yazılım (R, SAS, SPSS vb.) kullandığınızda, çıktı olarak regresyon sonuçlarını özetleyen bir regresyon tablosu alırsınız. Regresyon analizi sonuçlarını anlayabilmeniz için bu tabloyu nasıl okuyacağınızı bilmeniz önemlidir.
Bu eğitimde bir regresyon analizi örneği gösterilmekte ve bir regresyon tablosunun sonucunun nasıl okunacağı ve yorumlanacağına ilişkin ayrıntılı bir açıklama sağlanmaktadır.
Bir regresyon örneği
12 farklı öğrencinin toplam ders saatini, toplam alınan hazırlık sınav sayısını ve final sınav notunu gösteren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Çalışılan saat ve alınan hazırlık sınavları ile öğrencinin aldığı final sınavı notu arasındaki ilişkiyi analiz etmek için, çalışılan saatleri ve alınan hazırlık sınavlarını yordayıcı değişkenler olarak ve sınavdaki final notunu yanıt değişkeni olarak kullanarak çoklu doğrusal regresyon uyguluyoruz.
Aşağıdaki sonucu alıyoruz:
Model uyumunun incelenmesi
İlk bölüm, regresyon modeli uyumunu, yani regresyon modelinin veri setine ne kadar iyi “uyabildiğini” ölçen birkaç farklı sayıyı gösterir.
Bu bölümdeki sayıların her birini nasıl yorumlayacağınız aşağıda açıklanmıştır:
Birkaç Rs
Bu korelasyon katsayısıdır . Tahmin edici değişkenler ile yanıt değişkeni arasındaki doğrusal ilişkinin gücünü ölçer. 1’in R katı, mükemmel bir doğrusal ilişkiyi belirtirken, 0’ın R katı, doğrusal bir ilişkinin olmadığını gösterir. Çoklu R, R karenin kareköküdür (aşağıya bakınız).
Bu örnekte, çoklu R 0,72855’tir ; bu, yordayıcıların çalışma saatleri ve hazırlık sınavları ile yanıt değişkeninin final sınav notu arasında oldukça güçlü bir doğrusal ilişkiye işaret eder.
R-kare
Bu genellikle r2 olarak yazılır ve belirleme katsayısı olarak da bilinir. Bu, yordayıcı değişken tarafından açıklanabilen yanıt değişkenindeki varyansın oranıdır.
R-kare değeri 0 ila 1 arasında değişebilir. 0 değeri, yanıt değişkeninin yordayıcı değişken tarafından hiçbir şekilde açıklanamayacağını gösterir. 1 değeri, yanıt değişkeninin yordayıcı değişken tarafından hatasız olarak mükemmel bir şekilde açıklanabileceğini gösterir.
Bu örnekte R-kare 0,5307’dir ; bu, final sınavı puanlarındaki varyansın %53,07’sinin çalışılan saat sayısı ve geçmiş deneme sınavlarının sayısıyla açıklanabileceğini gösterir.
İlgili: İyi bir R-kare değeri nedir?
Düzeltilmiş R-kare
Bu, modeldeki öngörücülerin sayısına göre ayarlanan R-karenin değiştirilmiş bir versiyonudur. Her zaman R kareden küçüktür. Düzeltilmiş R-kare, farklı regresyon modellerinin uyumunun birbiriyle karşılaştırılmasında faydalı olabilir.
Bu örnekte düzeltilmiş R-kare 0,4265’tir.
Regresyonun standart hatası
Regresyonun standart hatası, gözlemlenen değerler ile regresyon çizgisi arasındaki ortalama mesafedir. Bu örnekte gözlemlenen değerler regresyon doğrusundan ortalama 7,3267 birim sapmaktadır.
İlgili: Regresyonun Standart Hatasını Anlamak
Yorumlar
Bu sadece veri setimizdeki gözlemlerin sayısıdır. Bu örnekte toplam gözlem sayısı 12’dir .
Regresyon modelinin genel anlamlılığının test edilmesi
Aşağıdaki bölümde regresyon modelinin serbestlik dereceleri, kareler toplamı, ortalama kareler, F istatistiği ve genel önemi gösterilmektedir.
Bu bölümdeki sayıların her birini nasıl yorumlayacağınız aşağıda açıklanmıştır:
Regresyon serbestlik dereceleri
Bu sayı şuna eşittir: regresyon katsayılarının sayısı – 1. Bu örnekte, bir orijinal terimimiz ve iki yordayıcı değişkenimiz var, yani toplamda üç regresyon katsayımız var, bu da regresyonun serbestlik derecelerinin 3 – 1 olduğu anlamına geliyor. = 2 .
Toplam serbestlik derecesi
Bu sayı şuna eşittir: gözlem sayısı – 1. Bu örnekte 12 gözlemimiz var, dolayısıyla toplam serbestlik derecesi sayısı 12 – 1 = 11 .
Kalan serbestlik dereceleri
Bu sayı şuna eşittir: toplam df – regresyon df. Bu örnekte artık serbestlik derecesi 11 – 2 = 9’dur .
Ortalama kareler
Regresyon ortalama kareleri SS regresyonu/sd regresyonu ile hesaplanır. Bu örnekte regresyon MS = 546,53308 / 2 = 273,2665 .
Artık ortalama kareler, artık SS/artık df ile hesaplanır. Bu örnekte, artık MS = 483,1335 / 9 = 53,68151 .
F istatistiği
F istatistiği MS regresyonu/MS kalıntısı olarak hesaplanır. Bu istatistik, regresyon modelinin bağımsız değişken içermeyen bir modele göre verilere daha iyi uyum sağlayıp sağlamadığını gösterir.
Temel olarak regresyon modelinin bir bütün olarak yararlı olup olmadığını test eder. Genel olarak, modeldeki yordayıcı değişkenlerden hiçbiri istatistiksel olarak anlamlı değilse, genel F istatistiği de istatistiksel olarak anlamlı değildir.
Bu örnekte F istatistiği 273,2665 / 53,68151 = 5,09’dur .
F’nin Önemi (P değeri)
Tablodaki son değer F istatistiğiyle ilişkili p değeridir. Genel regresyon modelinin anlamlı olup olmadığını görmek için p değerini bir anlamlılık düzeyiyle karşılaştırabilirsiniz; ortak seçenekler 0,01, 0,05 ve 0,10’dur.
P değeri anlamlılık seviyesinin altındaysa, regresyon modelinin verilere yordayıcı değişken içermeyen modelden daha iyi uyduğu sonucuna varmak için yeterli kanıt vardır. Bu sonuç olumludur çünkü bu, modelin yordayıcı değişkenlerinin aslında modelin uyumunu iyileştirdiği anlamına gelir.
Bu örnekte p değeri 0,033’tür ve bu da 0,05 ortak anlamlılık düzeyinin altındadır. Bu, bir bütün olarak regresyon modelinin istatistiksel olarak anlamlı olduğunu, yani modelin, yordayıcı değişkenlerin olmadığı modele göre verilere daha iyi uyum sağladığını gösterir.
Regresyon modelinin genel anlamlılığının test edilmesi
Son bölümde regresyon modelindeki her terim için katsayı tahminleri, tahminlerin standart hatası, t-istatistiği, p-değerleri ve güven aralıkları sunulmaktadır.
Bu bölümdeki sayıların her birini nasıl yorumlayacağınız aşağıda açıklanmıştır:
Katsayılar
Katsayılar bize tahmini regresyon denklemini yazmak için gereken sayıları verir:
y şapka = b 0 + b 1 x 1 + b 2 x 2 .
Bu örnekte tahmini regresyon denklemi şöyledir:
Final sınav puanı = 66.99 + 1.299 (çalışma saati) + 1.117 (hazırlık sınavları)
Her bir katsayı, diğer tüm yordayıcı değişkenlerin sabit kaldığı varsayılarak, belirli bir yordayıcı değişkendeki her bir birimlik artış için yanıt değişkenindeki ortalama artış olarak yorumlanır. Örneğin, hazırlık sınavlarının sayısının sabit kaldığı varsayıldığında, çalışılan her ek saat için final sınav puanında beklenen ortalama artış 1.299 puandır.
Kesişme noktası, sıfır saat ders çalışan ve hazırlık sınavına girmeyen bir öğrencinin final sınavından beklenen ortalama notu olarak yorumlanır. Bu örnekte, bir öğrencinin sıfır saat çalışıp hazırlık sınavına girmemesi durumunda 66,99 puan alması beklenir. Bir regresyon sonucunun kesişimini yorumlarken dikkatli olun çünkü bunu yapmak her zaman anlamlı değildir.
Örneğin, bazı durumlarda kesişimin negatif bir sayı olduğu ortaya çıkabilir ve bunun çoğunlukla açık bir yorumu yoktur. Bu, modelin yanlış olduğu anlamına gelmez; yalnızca müdahalenin kendisinin herhangi bir anlam ifade edecek şekilde yorumlanmaması gerektiği anlamına gelir.
Standart hata, t istatistikleri ve p değerleri
Standart hata, her değişken için katsayı tahmini etrafındaki belirsizliğin bir ölçüsüdür.
T-stat basitçe katsayının standart hataya bölünmesiyle elde edilir. Örneğin çalışma saatleri için t-istatistiki 1,299 / 0,417 = 3,117’dir.
Sonraki sütun t-istatistikiyle ilişkili p-değerini gösterir. Bu sayı bize belirli bir yanıt değişkeninin modelde anlamlı olup olmadığını söyler. Bu örnekte ders çalışma saatleri için p değerinin 0,012, hazırlık sınavlarının p değerinin ise 0,304 olduğunu görüyoruz. Bu durum, çalışma saatlerinin deneme sınavlarından farklı olarak final sınavı notunun önemli bir belirleyicisi olduğunu göstermektedir.
Katsayı tahminleri için güven aralığı
Tablonun son iki sütunu katsayı tahminleri için %95 güven aralığının alt ve üst sınırlarını sağlamaktadır.
Örneğin çalışma saatlerine ilişkin katsayı tahmini 1.299’dur ancak bu tahminin etrafında bazı belirsizlikler bulunmaktadır. Bunun kesin katsayı olup olmadığından asla emin olamayız. Yani %95’lik bir güven aralığı bize gerçek katsayı için bir dizi olası değer verir.
Bu durumda çalışma saatlerine ilişkin %95 güven aralığı (0,356, 2,24) olur. Bu güven aralığının “0” sayısını içermediğine dikkat edin; bu, çalışma saatleri katsayısının gerçek değerinin sıfırdan farklı, yani pozitif bir sayı olduğundan tamamen emin olduğumuz anlamına gelir.
Buna karşılık hazırlık sınavları için %95 güven aralığı (-1,201, 3,436)’dır. Bu güven aralığının “0” sayısını içerdiğini unutmayın; bu, hazırlık sınavlarının katsayısının gerçek değerinin sıfır olabileceği, yani final sınavı sonuçlarını tahmin etmede anlamlı olmadığı anlamına gelir.
Ek kaynaklar
Doğrusal Regresyon İçin Sıfır Hipotezini Anlamak
Regresyonda Genel Önem için F Testini Anlamak
Regresyon sonuçları nasıl raporlanır?