Sas'ta proc glmselect deyimi nasıl kullanılır?


Potansiyel tahmin değişkenleri listesine dayalı olarak en iyi regresyon modelini seçmek için SAS’taki PROC GLMSELECT ifadesini kullanabilirsiniz.

Aşağıdaki örnek bu ifadenin pratikte nasıl kullanılacağını göstermektedir.

Örnek: Model seçimi için SAS’ta PROC GLMSELECT nasıl kullanılır?

Öğrencilerin final notu sınavını tahmin etmek için (1) ders çalışmak için harcanan saat sayısını, (2) girilen hazırlık sınavlarının sayısını ve (3) cinsiyeti kullanan çoklu doğrusal regresyon modelini uydurmak istediğimizi varsayalım.

Öncelikle 20 öğrenciye yönelik bu bilgileri içeren bir veri seti oluşturmak için aşağıdaki kodu kullanacağız:

 /*create dataset*/
data exam_data;
    input hours prep_exams gender $score;
    datalines ;
1 1 0 76
2 3 1 78
2 3 0 85
4 5 0 88
2 2 0 72
1 2 1 69
5 1 1 94
4 1 0 94
2 0 1 88
4 3 0 92
4 4 1 90
3 3 1 75
6 2 1 96
5 4 0 90
3 4 0 82
4 4 1 85
6 5 1 99
2 1 0 83
1 0 1 62
2 1 0 76
;
run ;

/*view dataset*/
proc print data =exam_data;

Daha sonra, en iyi regresyon modelini üreten öngörücü değişkenlerin alt kümesini tanımlamak için PROC GLMSELECT ifadesini kullanacağız:

 /*perform model selection*/
proc glmselect data =exam_data;
    classgender ;
    model score = hours prep_exams gender;
run ;

Not : Kategorik bir değişken olduğu için cinsiyeti sınıf ifadesine dahil ettik.

Çıktıdaki ilk tablo grubu GLMSELECT prosedürüne genel bir bakış gösterir:

Değişkenlerin modele eklenmesini veya modelden çıkarılmasını durdurmak için kullanılan kriterin, bazen Bayesian bilgi kriteri olarak da adlandırılan Schwarz bilgi kriteri olan SBC olduğunu görebiliriz.

Temel olarak PROC GLMSELECT ifadesi, “en iyi” model olarak kabul edilen en düşük SBC değerine sahip modeli bulana kadar modele değişken eklemeye veya modelden değişken çıkarmaya devam eder.

Aşağıdaki tablo grubu, adım adım seçimin nasıl sona erdiğini göstermektedir:

Yalnızca orijinal terime sahip bir modelin SBC değerinin 93.4337 olduğunu görebiliriz.

Modele yordayıcı değişken olarak saatlerin eklenmesiyle SBC değeri 70,4452’ye düştü.

Modeli geliştirmenin en iyi yolu cinsiyeti yordayıcı değişken olarak eklemekti ancak bu aslında SBC değerini 71.7383’e çıkardı.

Bu nedenle son model yalnızca kesme terimini ve çalışılan süreleri içerir.

Sonucun son kısmı bu uygun regresyon modelinin özetini gösterir:

Uygun regresyon modelini yazmak için Parametre Tahminleri tablosundaki değerleri kullanabiliriz:

Sınav puanı = 67.161689 + 5.250257 (çalışılan saat)

Bu modelin verilere ne kadar iyi uyduğunu bize söyleyen çeşitli ölçümleri de görebiliriz:

R-Kare değeri bize, çalışılan saat sayısı ve girilen hazırlık sınavlarının sayısıyla açıklanabilecek sınav puanlarındaki değişimin yüzdesini anlatır.

Bu durumda sınav puanlarındaki farklılığın %72,73’ü çalışılan saat ve girilen hazırlık sınavı sayısı ile açıklanabilir.

Kök MSE değerinin bilinmesi de faydalıdır. Bu, gözlemlenen değerler ile regresyon çizgisi arasındaki ortalama mesafeyi temsil eder.

Bu regresyon modelinde gözlenen değerler regresyon doğrusundan ortalama 5,28052 birim sapmaktadır.

Not : PROC GLMSELECT ile kullanabileceğiniz potansiyel argümanların tam listesi için SAS belgelerine bakın.

Ek kaynaklar

Aşağıdaki eğitimlerde SAS’ta diğer ortak görevlerin nasıl gerçekleştirileceği açıklanmaktadır:

SAS’ta basit doğrusal regresyon nasıl gerçekleştirilir?
SAS’ta çoklu doğrusal regresyon nasıl gerçekleştirilir?
SAS’ta polinom regresyonu nasıl gerçekleştirilir?
SAS’ta lojistik regresyon nasıl gerçekleştirilir?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir