R'de olabilirlik oranı testi nasıl yapılır
Olabilirlik oranı testi, iki iç içe regresyon modelinin uyum iyiliğini karşılaştırır.
Yuvalanmış bir model, genel regresyon modelinde öngörücü değişkenlerin bir alt kümesini içeren bir modeldir.
Örneğin, dört öngörücü değişkene sahip aşağıdaki regresyon modeline sahip olduğumuzu varsayalım:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
İç içe geçmiş bir modelin bir örneği, orijinal tahmin değişkenlerinden yalnızca ikisini içeren aşağıdaki model olabilir:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Bu iki modelin önemli ölçüde farklı olup olmadığını belirlemek için aşağıdaki boş ve alternatif hipotezleri kullanan bir olasılık oranı testi yapabiliriz:
H 0 : Tam model ve iç içe geçmiş model verilere eşit derecede uyum sağlar. Bu nedenle iç içe modeli kullanmalısınız .
H A : Tam model, verilere iç içe geçmiş modelden önemli ölçüde daha iyi uyuyor. Bu nedenle şablonun tamamını kullanmanız gerekir.
Testin p değeri belirli bir anlamlılık düzeyinin (örneğin 0,05) altındaysa, sıfır hipotezini reddedebilir ve tam modelin önemli ölçüde daha iyi bir uyum sağladığı sonucuna varabiliriz.
Aşağıdaki örnek, R’de olabilirlik oranı testinin nasıl gerçekleştirileceğini gösterir.
Örnek: R’de olasılık oranı testi
Aşağıdaki kod, yerleşik mtcars veri kümesindeki verileri kullanarak aşağıdaki iki regresyon modelinin R’ye nasıl sığdırılacağını gösterir:
Tam model: mpg = β 0 + β 1 mevcut + β 2 karbonhidrat + β 3 hp + β 4 silindir
Model: mpg = β 0 + β 1 mevcut + β 2 karbonhidrat
Bu iki model üzerinde olabilirlik oranı testi gerçekleştirmek için lmtest paketinin lrtest() fonksiyonunu kullanacağız:
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ disp + carb + hp + cyl Model 2: mpg ~ available + carb #Df LogLik Df Chisq Pr(>Chisq) 1 6 -77.558 2 4 -78.603 -2 2.0902 0.3517
Sonuçtan ki-kare test istatistiğinin 2,0902 ve buna karşılık gelen p değerinin 0,3517 olduğunu görebiliriz.
Bu p değeri 0,05’ten küçük olmadığından sıfır hipotezini reddetmede başarısız olacağız.
Bu, tam modelin ve iç içe geçmiş modelin verilere eşit derecede iyi uyduğu anlamına gelir. Bu nedenle iç içe modeli kullanmalıyız çünkü tam modeldeki ek yordayıcı değişkenler uyumda önemli bir iyileşme sağlamamaktadır.
Daha sonra, tek bir yordayıcı değişkene sahip bir modelin, her iki yordayıcıya sahip bir modelden önemli ölçüde farklı olup olmadığını belirlemek için başka bir olabilirlik oranı testi yapabiliriz:
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ available + carb Model 2: mpg ~ available #Df LogLik Df Chisq Pr(>Chisq) 1 4 -78.603 2 3 -82.105 -1 7.0034 0.008136 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Sonuçtan olabilirlik oranı testinin p değerinin 0,008136 olduğunu görebiliriz. Bu sayı 0,05’ten küçük olduğundan sıfır hipotezini reddederiz.
Böylece, iki yordayıcı modelin, tek yordayıcı modele göre uyum açısından önemli bir iyileşme sağladığı sonucuna varabiliriz.
Yani son modelimiz şu şekilde olacaktır:
mpg = β 0 + β 1 mevcut + β 2 karbonhidrat
Ek kaynaklar
R’de basit doğrusal regresyon nasıl gerçekleştirilir
R’de çoklu doğrusal regresyon nasıl gerçekleştirilir
R’deki anlam kodları nasıl yorumlanır