Lojistik regresyon i̇çin sıfır hipotezini anlamak
Lojistik regresyon, yanıt değişkeni ikili olduğunda bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi anlamak için kullanabileceğimiz bir regresyon modeli türüdür.
Yalnızca bir yordayıcı değişkenimiz ve bir yanıt değişkenimiz varsa, değişkenler arasındaki ilişkiyi tahmin etmek için aşağıdaki formülü kullanan basit lojistik regresyonu kullanabiliriz:
log[p(X) / (1-p(X))] = β 0 + β 1
Denklemin sağ tarafındaki formül, yanıt değişkeninin 1 değerini alma ihtimalinin logaritmasını tahmin eder.
Basit lojistik regresyon aşağıdaki boş ve alternatif hipotezleri kullanır:
- H 0 : β 1 = 0
- HA : β 1 ≠ 0
Boş hipotez, β 1 katsayısının sıfıra eşit olduğunu belirtir. Başka bir deyişle yordayıcı değişken x ile yanıt değişkeni y arasında istatistiksel olarak anlamlı bir ilişki yoktur.
Alternatif hipotez β 1’in sıfıra eşit olmadığını belirtir. Başka bir deyişle x ile y arasında istatistiksel olarak anlamlı bir ilişki vardır .
Birden fazla yordayıcı değişkenimiz ve bir yanıt değişkenimiz varsa, değişkenler arasındaki ilişkiyi tahmin etmek için aşağıdaki formülü kullanan çoklu lojistik regresyonu kullanabiliriz:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Çoklu lojistik regresyon aşağıdaki boş ve alternatif hipotezleri kullanır:
- H 0 : β 1 = β 2 = … = β k = 0
- HA : β 1 = β 2 = … = β k ≠ 0
Sıfır hipotezi, modeldeki tüm katsayıların sıfıra eşit olduğunu belirtir. Başka bir deyişle, yordayıcı değişkenlerden hiçbirinin yanıt değişkeni y ile istatistiksel olarak anlamlı bir ilişkisi yoktur.
Alternatif hipotez, tüm katsayıların aynı anda sıfıra eşit olmadığını belirtir.
Aşağıdaki örnekler, basit lojistik regresyon ve çoklu lojistik regresyon modellerinde sıfır hipotezinin reddedilip reddedilmeyeceğine nasıl karar verileceğini gösterir.
Örnek 1: basit lojistik regresyon
Bir profesörün, sınıfındaki öğrencilerin alacağı sınav notunu tahmin etmek için çalışılan saat sayısını kullanmak istediğini varsayalım. 20 öğrenciden veri topluyor ve basit bir lojistik regresyon modeline uyuyor.
Basit bir lojistik regresyon modeline uymak için R’de aşağıdaki kodu kullanabiliriz:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
Çalışılan saat ile sınav puanı arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını belirlemek için modelin genel ki-kare değerini ve buna karşılık gelen p değerini analiz etmemiz gerekir.
Modelin genel ki-kare değerini hesaplamak için aşağıdaki formülü kullanabiliriz:
X 2 = (Sıfır sapma – Artık sapma) / (Sıfır Df – Artık sapma)
P değeri 0,2717286 olarak çıkıyor.
Bu p değeri 0,05’ten küçük olmadığından sıfır hipotezini reddedemiyoruz. Yani çalışılan saat ile sınav puanları arasında istatistiksel olarak anlamlı bir ilişki bulunmamaktadır.
Örnek 2: Çoklu lojistik regresyon
Bir profesörün, öğrencilerinin sınıfında kazanacağı notu tahmin etmek için çalışılan saat sayısını ve girdiği hazırlık sınavlarının sayısını kullanmak istediğini varsayalım. 20 öğrenciden veri topluyor ve çoklu lojistik regresyon modeline uyuyor.
Çoklu lojistik regresyon modeline uymak için R’de aşağıdaki kodu kullanabiliriz:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
Modelin genel ki-kare istatistiğinin p değeri 0,01971255 olarak çıkıyor.
Bu p değeri 0,05’ten küçük olduğundan sıfır hipotezini reddediyoruz. Başka bir deyişle, çalışılan saat ve alınan hazırlık sınavlarının kombinasyonu ile sınavdan alınan final notu arasında istatistiksel olarak anlamlı bir ilişki vardır.
Ek kaynaklar
Aşağıdaki eğitimler lojistik regresyon hakkında ek bilgi sağlar:
Lojistik Regresyona Giriş
Lojistik regresyon sonuçları nasıl raporlanır?
Lojistik regresyon ve doğrusal regresyon: temel farklar