ทำความเข้าใจสมมติฐานว่างสำหรับการถดถอยโลจิสติก
การถดถอยแบบโลจิสติก เป็นรูปแบบการถดถอยประเภทหนึ่งที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับ ตัวแปรการตอบสนอง เมื่อตัวแปรตอบสนองเป็นไบนารี
หากเรามีตัวแปรทำนายเพียงตัวเดียวและตัวแปรตอบสนองเพียงตัวเดียว เราสามารถใช้ การถดถอยโลจิสติกอย่างง่าย ซึ่งใช้สูตรต่อไปนี้เพื่อประมาณความสัมพันธ์ระหว่างตัวแปร:
บันทึก[p(X) / (1-p(X))] = β 0 + β 1
สูตรทางด้านขวาของสมการทำนายลอการิทึมของอัตราต่อรองที่ตัวแปรตอบสนองรับค่า 1
การถดถอยโลจิสติกอย่างง่ายใช้สมมติฐานว่างและทางเลือกต่อไปนี้:
- ชม 0 : β 1 = 0
- HA : β 1 ≠ 0
สมมติฐานว่างระบุว่าสัมประสิทธิ์ β 1 เท่ากับศูนย์ กล่าวอีกนัยหนึ่ง ไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างตัวแปรทำนาย x และตัวแปรตอบสนอง y
สมมติฐานทางเลือกระบุว่า β 1 ไม่ เท่ากับศูนย์ กล่าวอีกนัยหนึ่ง มี ความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่าง x และ y
หากเรามีตัวแปรทำนายหลายตัวและตัวแปรตอบสนองหนึ่งตัว เราสามารถใช้ การถดถอยโลจิสติกหลายตัว ซึ่งใช้สูตรต่อไปนี้เพื่อประมาณความสัมพันธ์ระหว่างตัวแปร:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
การถดถอยโลจิสติกพหุคูณใช้สมมติฐานว่างและทางเลือกต่อไปนี้:
- H 0 : β 1 = β 2 = … = β k = 0
- HA : β 1 = β 2 = … = β k ≠ 0
สมมติฐานว่างระบุว่าสัมประสิทธิ์ทั้งหมดในแบบจำลองมีค่าเท่ากับศูนย์ กล่าวอีกนัยหนึ่ง ไม่มีตัวแปรทำนายใดที่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรตอบสนอง y
สมมติฐานทางเลือกระบุว่าไม่ใช่ว่าสัมประสิทธิ์ทั้งหมดจะเท่ากับศูนย์พร้อมกัน
ตัวอย่างต่อไปนี้แสดงวิธีการตัดสินใจว่าจะปฏิเสธหรือไม่ปฏิเสธสมมติฐานว่างในการถดถอยโลจิสติกอย่างง่ายและแบบจำลองการถดถอยโลจิสติกหลายรายการ
ตัวอย่างที่ 1: การถดถอยโลจิสติกอย่างง่าย
สมมติว่าอาจารย์ต้องการใช้จำนวนชั่วโมงเรียนเพื่อทำนายคะแนนสอบที่นักเรียนในชั้นเรียนจะได้ โดยรวบรวมข้อมูลจากนักเรียน 20 คนและเหมาะกับโมเดลการถดถอยโลจิสติกอย่างง่าย
เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อให้พอดีกับโมเดลการถดถอยโลจิสติกอย่างง่าย:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
เพื่อตรวจสอบว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างชั่วโมงที่เรียนกับคะแนนสอบหรือไม่ เราจำเป็นต้องวิเคราะห์ค่าไคสแควร์โดยรวมของแบบจำลองและค่า p ที่สอดคล้องกัน
เราสามารถใช้สูตรต่อไปนี้เพื่อคำนวณค่าไคสแควร์โดยรวมของแบบจำลอง:
X 2 = (ค่าเบี่ยงเบนเป็นศูนย์ – ค่าเบี่ยงเบนที่เหลือ) / (ศูนย์ Df – ค่าเบี่ยงเบนคงเหลือ)
ค่า p กลายเป็น 0.2717286
เนื่องจากค่า p นี้ไม่น้อยกว่า 0.05 เราจึงไม่สามารถปฏิเสธสมมติฐานว่างได้ กล่าวอีกนัยหนึ่ง ไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างชั่วโมงเรียนกับคะแนนสอบ
ตัวอย่างที่ 2: การถดถอยโลจิสติกพหุคูณ
สมมติว่าอาจารย์ต้องการใช้จำนวนชั่วโมงเรียนและจำนวนข้อสอบเตรียมสอบเพื่อคาดเดาเกรดที่นักเรียนจะได้รับในชั้นเรียน โดยรวบรวมข้อมูลจากนักเรียน 20 คนและเหมาะกับโมเดลการถดถอยโลจิสติกพหุคูณ
เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อให้พอดีกับโมเดลการถดถอยโลจิสติกหลายรายการ:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
ค่า p สำหรับสถิติไคสแควร์โดยรวมของแบบจำลองกลายเป็น 0.01971255
เนื่องจากค่า p นี้น้อยกว่า 0.05 เราจึงปฏิเสธสมมติฐานว่าง กล่าวอีกนัยหนึ่ง มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างการผสมผสานระหว่างชั่วโมงเรียนและการสอบเตรียมอุดมศึกษากับเกรดสุดท้ายที่ได้รับจากการสอบ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการถดถอยโลจิสติก:
รู้เบื้องต้นเกี่ยวกับการถดถอยโลจิสติก
วิธีรายงานผลการถดถอยโลจิสติก
การถดถอยโลจิสติกกับการถดถอยเชิงเส้น: ความแตกต่างที่สำคัญ