Model seçimi için r'de regsubsets () nasıl kullanılır?


En iyi regresyon modelini üreten öngörücü değişkenlerin alt kümesini bulmak için R’deki sıçrama paketindeki regsubsets() işlevini kullanabilirsiniz.

Aşağıdaki örnekte bu fonksiyonun pratikte nasıl kullanılacağı gösterilmektedir.

Örnek: R’de model seçimi için regsubsets() işlevinin kullanılması

Bu örnek için, 32 farklı araba için 11 farklı öznitelik üzerinde ölçümler içeren, R’de yerleşik olarak bulunan mtcars veri kümesini kullanacağız.

 #view first six rows of mtcars dataset
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Yanıt değişkeni olarak hp’yi ve aşağıdaki potansiyel tahmin değişkenlerini kullanarak bir regresyon modeli uydurmak istediğimizi varsayalım:

  • mpg
  • ağırlık
  • bok
  • qsec

En iyi regresyon modelini bulmak amacıyla kapsamlı bir arama gerçekleştirmek için sıçrama paketindeki regsubsets() işlevini kullanabiliriz:

 library (leaps)

#find best regression model
bestSubsets <- regsubsets(hp ~ mpg + wt + drat + qsec, data=mtcars)

#view results
summary(bestSubsets)

Subset selection object
Call: regsubsets.formula(hp ~ mpg + wt + drat + qsec, data = mtcars)
4 Variables (and intercept)
     Forced in Forced out
mpg FALSE FALSE
wt FALSE FALSE
drat FALSE FALSE
qsec FALSE FALSE
1 subsets of each size up to 4
Selection Algorithm: exhaustive
         mpg wt drat qsec
1 ( 1 ) "*" " " " " " " 
2 (1) " " "*" " " "*" 
3 ( 1 ) “*” “*” “ “ “*” 
4 ( 1 ) “*” “*” “*” “*”

Sonucun altındaki yıldızlar ( * ), farklı sayıda yordayıcı değişkene sahip olası her model için hangi yordayıcı değişkenin en iyi regresyon modeline ait olduğunu gösterir.

Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:

Tek yordayıcı değişkene sahip bir model için en iyi regresyon modeli, yordayıcı değişken olarak mpg kullanılarak üretilir.

İki yordayıcı değişkeni olan bir model için en iyi regresyon modeli, yordayıcı değişkenler olarak wt ve qsec kullanılarak üretilir.

Üç yordayıcı değişkeni olan bir model için en iyi regresyon modeli, yordayıcı değişkenler olarak mpg , wt ve qsec kullanılarak üretilir.

Dört yordayıcı değişkene sahip bir model için en iyi regresyon modeli, yordayıcı değişkenler olarak mpg , wt , drat ve qsec kullanılarak üretilir.

Her model için aşağıdaki metrikleri de çıkarabileceğinizi unutmayın:

Örneğin, en iyi dört modelin her biri için uygun R-kare değerini çıkarmak için aşağıdaki sözdizimini kullanabiliriz:

 #view adjusted R-squared value of each model
summary(bestSubsets)$adjr2

[1] 0.5891853 0.7828169 0.7858829 0.7787005

Sonuçtan şunu görebiliriz:

  • Tahmin değişkeni olarak mpg’nin kullanıldığı model için düzeltilmiş R-kare değeri 0,589’dur .
  • Tahmin değişkenleri olarak wt ve qsec’in kullanıldığı model için düzeltilmiş R-kare değeri 0,783’tür .
  • Tahmin değişkenleri olarak mp g , wt ve qsec’in kullanıldığı model için düzeltilmiş R-kare değeri 0,786’dır .
  • Tahmin edici değişkenler olarak mpg , wt , drat ve qsec’in kullanıldığı model için düzeltilmiş R-kare değeri 0,779’dur .

Bu değerler bize, yordayıcı değişkenler kümesinin, modeldeki yordayıcı değişkenlerin sayısına göre ayarlanan yanıt değişkeninin değerini ne kadar iyi tahmin ettiğine dair bir fikir verir.

Ek kaynaklar

Aşağıdaki eğitimlerde R’de diğer ortak görevlerin nasıl gerçekleştirileceği açıklanmaktadır:

R’de çoklu doğrusal regresyon nasıl gerçekleştirilir
R’de parçalı regresyon nasıl gerçekleştirilir
R’de spline regresyonu nasıl gerçekleştirilir

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir