Lojistik regresyon i̇çin sıfır hipotezini anlamak

İle Dr.benjamin anderson Temmuz 23, 2023 Rehber 0 Yorum

Lojistik regresyon, yanıt değişkeni ikili olduğunda bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi anlamak için kullanabileceğimiz bir regresyon modeli türüdür.

Yalnızca bir yordayıcı değişkenimiz ve bir yanıt değişkenimiz varsa, değişkenler arasındaki ilişkiyi tahmin etmek için aşağıdaki formülü kullanan basit lojistik regresyonu kullanabiliriz:

log[p(X) / (1-p(X))] = β ₀ + β ₁

Denklemin sağ tarafındaki formül, yanıt değişkeninin 1 değerini alma ihtimalinin logaritmasını tahmin eder.

Basit lojistik regresyon aşağıdaki boş ve alternatif hipotezleri kullanır:

H ₀ : β ₁ = 0
_HA : β ₁ ≠ 0

Boş hipotez, β ₁ katsayısının sıfıra eşit olduğunu belirtir. Başka bir deyişle yordayıcı değişken x ile yanıt değişkeni y arasında istatistiksel olarak anlamlı bir ilişki yoktur.

Alternatif hipotez β _1’in sıfıra eşit olmadığını belirtir. Başka bir deyişle x ile y arasında istatistiksel olarak anlamlı bir ilişki vardır .

Birden fazla yordayıcı değişkenimiz ve bir yanıt değişkenimiz varsa, değişkenler arasındaki ilişkiyi tahmin etmek için aşağıdaki formülü kullanan çoklu lojistik regresyonu kullanabiliriz:

log[p(X) / (1-p(X))] = β ₀ + β ₁ x ₁ + β ₂ x ₂ + … + β _k x _k

Çoklu lojistik regresyon aşağıdaki boş ve alternatif hipotezleri kullanır:

H ₀ : β ₁ = β ₂ = … = β _k = 0
_HA : β ₁ = β ₂ = … = β _k ≠ 0

Sıfır hipotezi, modeldeki tüm katsayıların sıfıra eşit olduğunu belirtir. Başka bir deyişle, yordayıcı değişkenlerden hiçbirinin yanıt değişkeni y ile istatistiksel olarak anlamlı bir ilişkisi yoktur.

Alternatif hipotez, tüm katsayıların aynı anda sıfıra eşit olmadığını belirtir.

Aşağıdaki örnekler, basit lojistik regresyon ve çoklu lojistik regresyon modellerinde sıfır hipotezinin reddedilip reddedilmeyeceğine nasıl karar verileceğini gösterir.

Örnek 1: basit lojistik regresyon

Bir profesörün, sınıfındaki öğrencilerin alacağı sınav notunu tahmin etmek için çalışılan saat sayısını kullanmak istediğini varsayalım. 20 öğrenciden veri topluyor ve basit bir lojistik regresyon modeline uyuyor.

Basit bir lojistik regresyon modeline uymak için R’de aşağıdaki kodu kullanabiliriz:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Çalışılan saat ile sınav puanı arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını belirlemek için modelin genel ki-kare değerini ve buna karşılık gelen p değerini analiz etmemiz gerekir.

Modelin genel ki-kare değerini hesaplamak için aşağıdaki formülü kullanabiliriz:

X ² = (Sıfır sapma – Artık sapma) / (Sıfır Df – Artık sapma)

P değeri 0,2717286 olarak çıkıyor.

Bu p değeri 0,05’ten küçük olmadığından sıfır hipotezini reddedemiyoruz. Yani çalışılan saat ile sınav puanları arasında istatistiksel olarak anlamlı bir ilişki bulunmamaktadır.

Örnek 2: Çoklu lojistik regresyon

Bir profesörün, öğrencilerinin sınıfında kazanacağı notu tahmin etmek için çalışılan saat sayısını ve girdiği hazırlık sınavlarının sayısını kullanmak istediğini varsayalım. 20 öğrenciden veri topluyor ve çoklu lojistik regresyon modeline uyuyor.

Çoklu lojistik regresyon modeline uymak için R’de aşağıdaki kodu kullanabiliriz:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

Modelin genel ki-kare istatistiğinin p değeri 0,01971255 olarak çıkıyor.

Bu p değeri 0,05’ten küçük olduğundan sıfır hipotezini reddediyoruz. Başka bir deyişle, çalışılan saat ve alınan hazırlık sınavlarının kombinasyonu ile sınavdan alınan final notu arasında istatistiksel olarak anlamlı bir ilişki vardır.

Ek kaynaklar

Aşağıdaki eğitimler lojistik regresyon hakkında ek bilgi sağlar:

Lojistik Regresyona Giriş
Lojistik regresyon sonuçları nasıl raporlanır?
Lojistik regresyon ve doğrusal regresyon: temel farklar

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil

Örnek 1: basit lojistik regresyon

Örnek 2: Çoklu lojistik regresyon

Ek kaynaklar

yazar hakkında

Dr.benjamin anderson

Yorum ekle