ทำความเข้าใจสมมติฐานว่างสำหรับการถดถอยโลจิสติก


การถดถอยแบบโลจิสติก เป็นรูปแบบการถดถอยประเภทหนึ่งที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับ ตัวแปรการตอบสนอง เมื่อตัวแปรตอบสนองเป็นไบนารี

หากเรามีตัวแปรทำนายเพียงตัวเดียวและตัวแปรตอบสนองเพียงตัวเดียว เราสามารถใช้ การถดถอยโลจิสติกอย่างง่าย ซึ่งใช้สูตรต่อไปนี้เพื่อประมาณความสัมพันธ์ระหว่างตัวแปร:

บันทึก[p(X) / (1-p(X))] = β 0 + β 1

สูตรทางด้านขวาของสมการทำนายลอการิทึมของอัตราต่อรองที่ตัวแปรตอบสนองรับค่า 1

การถดถอยโลจิสติกอย่างง่ายใช้สมมติฐานว่างและทางเลือกต่อไปนี้:

  • ชม 0 : β 1 = 0
  • HA : β 1 ≠ 0

สมมติฐานว่างระบุว่าสัมประสิทธิ์ β 1 เท่ากับศูนย์ กล่าวอีกนัยหนึ่ง ไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างตัวแปรทำนาย x และตัวแปรตอบสนอง y

สมมติฐานทางเลือกระบุว่า β 1 ไม่ เท่ากับศูนย์ กล่าวอีกนัยหนึ่ง มี ความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่าง x และ y

หากเรามีตัวแปรทำนายหลายตัวและตัวแปรตอบสนองหนึ่งตัว เราสามารถใช้ การถดถอยโลจิสติกหลายตัว ซึ่งใช้สูตรต่อไปนี้เพื่อประมาณความสัมพันธ์ระหว่างตัวแปร:

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

การถดถอยโลจิสติกพหุคูณใช้สมมติฐานว่างและทางเลือกต่อไปนี้:

  • H 0 : β 1 = β 2 = … = β k = 0
  • HA : β 1 = β 2 = … = β k ≠ 0

สมมติฐานว่างระบุว่าสัมประสิทธิ์ทั้งหมดในแบบจำลองมีค่าเท่ากับศูนย์ กล่าวอีกนัยหนึ่ง ไม่มีตัวแปรทำนายใดที่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรตอบสนอง y

สมมติฐานทางเลือกระบุว่าไม่ใช่ว่าสัมประสิทธิ์ทั้งหมดจะเท่ากับศูนย์พร้อมกัน

ตัวอย่างต่อไปนี้แสดงวิธีการตัดสินใจว่าจะปฏิเสธหรือไม่ปฏิเสธสมมติฐานว่างในการถดถอยโลจิสติกอย่างง่ายและแบบจำลองการถดถอยโลจิสติกหลายรายการ

ตัวอย่างที่ 1: การถดถอยโลจิสติกอย่างง่าย

สมมติว่าอาจารย์ต้องการใช้จำนวนชั่วโมงเรียนเพื่อทำนายคะแนนสอบที่นักเรียนในชั้นเรียนจะได้ โดยรวบรวมข้อมูลจากนักเรียน 20 คนและเหมาะกับโมเดลการถดถอยโลจิสติกอย่างง่าย

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อให้พอดีกับโมเดลการถดถอยโลจิสติกอย่างง่าย:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

เพื่อตรวจสอบว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างชั่วโมงที่เรียนกับคะแนนสอบหรือไม่ เราจำเป็นต้องวิเคราะห์ค่าไคสแควร์โดยรวมของแบบจำลองและค่า p ที่สอดคล้องกัน

เราสามารถใช้สูตรต่อไปนี้เพื่อคำนวณค่าไคสแควร์โดยรวมของแบบจำลอง:

X 2 = (ค่าเบี่ยงเบนเป็นศูนย์ – ค่าเบี่ยงเบนที่เหลือ) / (ศูนย์ Df – ค่าเบี่ยงเบนคงเหลือ)

ค่า p กลายเป็น 0.2717286

เนื่องจากค่า p นี้ไม่น้อยกว่า 0.05 เราจึงไม่สามารถปฏิเสธสมมติฐานว่างได้ กล่าวอีกนัยหนึ่ง ไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างชั่วโมงเรียนกับคะแนนสอบ

ตัวอย่างที่ 2: การถดถอยโลจิสติกพหุคูณ

สมมติว่าอาจารย์ต้องการใช้จำนวนชั่วโมงเรียนและจำนวนข้อสอบเตรียมสอบเพื่อคาดเดาเกรดที่นักเรียนจะได้รับในชั้นเรียน โดยรวบรวมข้อมูลจากนักเรียน 20 คนและเหมาะกับโมเดลการถดถอยโลจิสติกพหุคูณ

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อให้พอดีกับโมเดลการถดถอยโลจิสติกหลายรายการ:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

ค่า p สำหรับสถิติไคสแควร์โดยรวมของแบบจำลองกลายเป็น 0.01971255

เนื่องจากค่า p นี้น้อยกว่า 0.05 เราจึงปฏิเสธสมมติฐานว่าง กล่าวอีกนัยหนึ่ง มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างการผสมผสานระหว่างชั่วโมงเรียนและการสอบเตรียมอุดมศึกษากับเกรดสุดท้ายที่ได้รับจากการสอบ

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการถดถอยโลจิสติก:

รู้เบื้องต้นเกี่ยวกับการถดถอยโลจิสติก
วิธีรายงานผลการถดถอยโลจิสติก
การถดถอยโลจิสติกกับการถดถอยเชิงเส้น: ความแตกต่างที่สำคัญ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *