R'de regresyon çıktısı nasıl yorumlanır


R’ye doğrusal bir regresyon modeli sığdırmak için lm() komutunu kullanabiliriz.

Regresyon modelinin çıktısını görüntülemek için Summary() komutunu kullanabiliriz.

Bu eğitimde, R’deki regresyon çıktısının her değerinin nasıl yorumlanacağı açıklanmaktadır.

Örnek: R’de Regresyon Çıktısını Yorumlama

Aşağıdaki kod, öngörü değişkenleri olarak hp , drat ve wt ve yanıt değişkeni olarak mpg kullanılarak entegre mtcars veri kümesiyle çoklu doğrusal regresyon modelinin nasıl sığdırılacağını gösterir:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Çıktıdaki her değerin nasıl yorumlanacağı aşağıda açıklanmıştır:

Arama

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Bu bölüm bize regresyon modelimizde kullandığımız formülü hatırlatıyor. Yanıt değişkeni olarak mpg’yi , tahmin değişkenleri olarak hp , drat ve wt’yi kullandığımızı görebiliriz. Her değişken mtcars adı verilen veri kümesinden geldi.

Kalıntı

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Bu bölümde regresyon modelinden kalanların dağılımının bir özeti görüntülenir. Kalıntının, gözlemlenen değer ile regresyon modelinin tahmin edilen değeri arasındaki fark olduğunu hatırlayın.

Minimum kalıntı -3,3598 , medyan kalıntı -0,5099 ve maksimum kalıntı 5,7078 idi.

Katsayılar

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Bu bölüm regresyon modelinin tahmin edilen katsayılarını gösterir. Bu katsayıları aşağıdaki tahmini regresyon denklemini oluşturmak için kullanabiliriz:

mpg = 29,39 – 0,03*hp + 1,62*drat – 3,23*ağırlık

Her yordayıcı değişken için aşağıdaki değerleri alırız:

Tahmin: Tahmin edilen katsayı. Bu bize, diğer tüm öngörücü değişkenlerin sabit kaldığını varsayarak, yordayıcı değişkendeki bir birimlik artışla ilişkili yanıt değişkenindeki ortalama artışı söyler.

Standart. Hata : Bu katsayının standart hatasıdır. Bu, katsayıya ilişkin tahminimizin belirsizliğinin bir ölçüsüdür.

t-değeri: (Tahmin) / (Standart Hata) olarak hesaplanan, yordayıcı değişkene ait t-istatistiğidir.

Pr(>|t|): t istatistiğine karşılık gelen p değeridir. Bu değer belirli bir alfa düzeyinin altındaysa (örneğin 0,05), yordayıcı değişkenin istatistiksel olarak anlamlı olduğu söylenir.

Bu regresyon modelinde hangi yordayıcıların anlamlı olduğunu belirlemek için α = 0,05’lik bir alfa düzeyi kullanırsak, hp ve wt’nin istatistiksel olarak anlamlı yordayıcılar olduğunu ancak drat’ın anlamlı olmadığını söylerdik.

Model yeterliliğinin değerlendirilmesi

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Bu son bölüm, regresyon modelinin veri setimize ne kadar iyi uyduğunu değerlendirmemize yardımcı olan çeşitli sayıları görüntüler.

Artık standart hata: Bu bize gözlemlenen değerler ile regresyon çizgisi arasındaki ortalama mesafeyi söyler. Değer ne kadar küçük olursa, regresyon modeli verilere o kadar iyi uyum sağlayabilir.

Serbestlik dereceleri nk-1 olarak hesaplanır; burada n = toplam gözlem sayısı ve k = öngörücülerin sayısı. Bu örnekte mtcars’ın 32 gözlemi var ve regresyon modelinde 3 öngörücü kullandık, dolayısıyla serbestlik derecesi 32 – 3 – 1 = 28.

Çoklu R-kare: Buna belirleme katsayısı denir. Bize yanıt değişkenindeki varyansın ne kadarının yordayıcı değişkenler tarafından açıklanabileceğini söyler.

Bu değer 0 ile 1 arasında değişir. 1’e ne kadar yakınsa, yordayıcı değişkenler yanıt değişkeninin değerini o kadar fazla tahmin edebilir.

Düzeltilmiş R-kare: Bu, modeldeki öngörücülerin sayısına göre ayarlanan R-karenin değiştirilmiş bir versiyonudur. Her zaman R kareden küçüktür.

Düzeltilmiş R-kare, farklı sayıda öngörücü değişken kullanan farklı regresyon modellerinin uyumunu karşılaştırmak için yararlı olabilir.

F-istatistiği: Regresyon modelinin, bağımsız değişken içermeyen bir modele göre verilere daha iyi uyum sağlayıp sağlamadığını gösterir. Temel olarak regresyon modelinin bir bütün olarak yararlı olup olmadığını test eder.

p değeri: F istatistiğine karşılık gelen p değeridir. Bu değer belirli bir anlamlılık düzeyinin altındaysa (örneğin 0,05), bu durumda regresyon modeli, yordayıcı olmayan bir modele göre verilere daha iyi uyum sağlar.

Regresyon modelleri oluştururken bu p değerinin belirli bir anlamlılık düzeyinin altında olmasını umuyoruz çünkü bu, yordayıcı değişkenlerin yanıt değişkeninin değerini tahmin etmede gerçekten yararlı olduğunu gösterir.

Ek kaynaklar

R’de basit doğrusal regresyon nasıl gerçekleştirilir
R’de çoklu doğrusal regresyon nasıl gerçekleştirilir
İyi bir R-kare değeri nedir?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir