คู่มือฉบับสมบูรณ์: การทดสอบสมมติฐานใน r
การทดสอบสมมติฐาน คือการทดสอบทางสถิติอย่างเป็นทางการที่เราใช้เพื่อปฏิเสธหรือไม่ปฏิเสธสมมติฐานทางสถิติ
บทช่วยสอนนี้จะอธิบายวิธีดำเนินการทดสอบสมมติฐานต่อไปนี้ใน R:
- ตัวอย่างการทดสอบ
- การทดสอบ T สองตัวอย่าง
- จับคู่ตัวอย่างการทดสอบที
เราสามารถใช้ฟังก์ชัน t.test() ใน R เพื่อทำการทดสอบแต่ละประเภท:
#one sample t-test t. test (x, y = NULL, alternative = c(" two.sided ", " less ", " greater "), mu = 0, paired = FALSE, var.equal = FALSE , conf.level = 0.95, …)
ทอง:
- x, y: ตัวอย่างข้อมูลทั้งสอง
- ทางเลือก: สมมติฐานทางเลือกของการทดสอบ
- mu: มูลค่าที่แท้จริงของค่าเฉลี่ย
- paired: จะทำการจับคู่ t-test หรือไม่
- var.equal: จะถือว่า ความแปรปรวนระหว่างตัวอย่างเท่ากัน หรือไม่
- conf.level: ระดับความมั่นใจ ที่จะใช้
ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในทางปฏิบัติ
ตัวอย่างที่ 1: การทดสอบทีหนึ่งตัวอย่างใน R
การทดสอบทีแบบตัวอย่างเดียว ใช้เพื่อทดสอบว่าค่าเฉลี่ยของประชากรเท่ากับค่าที่กำหนดหรือไม่
ตัวอย่างเช่น สมมติว่าเราต้องการทราบว่าน้ำหนักเฉลี่ยของเต่าบางสายพันธุ์คือ 310 ปอนด์หรือไม่ เราออกไปเก็บตัวอย่างเต่าสุ่มง่ายๆ โดยมีน้ำหนักดังต่อไปนี้:
น้ำหนัก : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
รหัสต่อไปนี้แสดงวิธีดำเนินการตัวอย่างการทดสอบทีใน R:
#define vector of turtle weights turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) #perform one sample t-test t. test (x=turtle_weights,mu=310) One Sample t-test data: turtle_weights t = -1.5848, df = 12, p-value = 0.139 alternative hypothesis: true mean is not equal to 310 95 percent confidence interval: 303.4236 311.0379 sample estimates: mean of x 307.2308
จากผลลัพธ์เราจะเห็นได้ว่า:
- สถิติการทดสอบที: -1.5848
- องศาอิสระ: 12
- ค่า p: 0.139
- ช่วงความเชื่อมั่น 95% สำหรับค่าเฉลี่ยจริง: [303.4236, 311.0379]
- น้ำหนักเต่าเฉลี่ย: 307,230
เนื่องจากค่า p ของการทดสอบ (0.139) ไม่น้อยกว่า 0.05 เราจึงไม่สามารถปฏิเสธสมมติฐานว่างได้
ซึ่งหมายความว่าเราไม่มีหลักฐานเพียงพอที่จะบอกว่าน้ำหนักเฉลี่ยของเต่าสายพันธุ์นี้เป็นอย่างอื่นที่ไม่ใช่ 310 ปอนด์
ตัวอย่างที่ 2: การทดสอบทีสองตัวอย่างใน R
การทดสอบทีแบบสองตัวอย่าง ใช้เพื่อทดสอบว่าค่าเฉลี่ยของประชากรทั้งสองเท่ากันหรือไม่
ตัวอย่างเช่น สมมติว่าเราต้องการทราบว่าน้ำหนักเฉลี่ยของเต่าสองสายพันธุ์ที่แตกต่างกันเท่ากันหรือไม่ เพื่อทดสอบสิ่งนี้ เราได้รวบรวมตัวอย่างเต่าแต่ละสายพันธุ์แบบสุ่มอย่างง่ายโดยมีน้ำหนักดังต่อไปนี้:
ตัวอย่างที่ 1 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
ตัวอย่างที่ 2 : 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305
รหัสต่อไปนี้แสดงวิธีดำเนินการสองตัวอย่างการทดสอบทีใน R:
#define vector of turtle weights for each sample sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305) #perform two sample t-tests t. test (x = sample1, y = sample2) Welch Two Sample t-test data: sample1 and sample2 t = -2.1009, df = 19.112, p-value = 0.04914 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.73862953 -0.03060124 sample estimates: mean of x mean of y 307.2308 314.6154
จากผลลัพธ์เราจะเห็นได้ว่า:
- สถิติการทดสอบที: -2.1009
- องศาอิสระ: 19,112
- ค่า p: 0.04914
- ช่วงความเชื่อมั่น 95% สำหรับผลต่างค่าเฉลี่ยที่แท้จริง: [-14.74, -0.03]
- น้ำหนักเฉลี่ยของกลุ่มตัวอย่าง 1: 307.2308
- น้ำหนักเฉลี่ยของตัวอย่าง 2: 314.6154
เนื่องจากค่า p ของการทดสอบ (0.04914) น้อยกว่า 0.05 เราจึงปฏิเสธสมมติฐานว่าง
ซึ่งหมายความว่าเรามีหลักฐานเพียงพอที่จะบอกว่าน้ำหนักเฉลี่ยระหว่างทั้งสองสายพันธุ์ไม่เท่ากัน
ตัวอย่างที่ 3: การทดสอบทีตัวอย่างคู่ใน R
การทดสอบทีแบบจับคู่ตัวอย่าง ใช้เพื่อเปรียบเทียบค่าเฉลี่ยของสองตัวอย่าง เมื่อการสังเกตแต่ละครั้งในตัวอย่างหนึ่งสามารถเชื่อมโยงกับการสังเกตในอีกตัวอย่างหนึ่งได้
ตัวอย่างเช่น สมมติว่าเราต้องการทราบว่าโปรแกรมการฝึกบางอย่างสามารถเพิ่มการกระโดดในแนวดิ่งสูงสุดของผู้เล่นบาสเก็ตบอลได้หรือไม่
เพื่อทดสอบสิ่งนี้ เราสามารถสุ่มตัวอย่างง่ายๆ จากผู้เล่นบาสเกตบอลระดับวิทยาลัย 12 คน และวัดการกระโดดในแนวดิ่งสูงสุดแต่ละครั้ง จากนั้นเราจะให้ผู้เล่นแต่ละคนใช้โปรแกรมการฝึกเป็นเวลาหนึ่งเดือน แล้ววัดการกระโดดแนวดิ่งสูงสุดของพวกเขาอีกครั้งในช่วงปลายเดือน
ข้อมูลต่อไปนี้แสดงความสูงในการกระโดดสูงสุด (หน่วยเป็นนิ้ว) ก่อนและหลังการใช้โปรแกรมการฝึกสำหรับผู้เล่นแต่ละคน:
ด้านหน้า : 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21
หลัง : 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20
รหัสต่อไปนี้แสดงวิธีดำเนินการทดสอบทีคู่ตัวอย่างใน R:
#define before and after max jump heights before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21) after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20) #perform paired samples t-test t. test (x = before, y = after, paired = TRUE ) Paired t-test data: before and after t = -2.5289, df = 11, p-value = 0.02803 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.3379151 -0.1620849 sample estimates: mean of the differences -1.25
จากผลลัพธ์เราจะเห็นได้ว่า:
- สถิติการทดสอบที: -2.5289
- องศาอิสระ: 11
- ค่า p: 0.02803
- ช่วงความเชื่อมั่น 95% สำหรับผลต่างค่าเฉลี่ยที่แท้จริง: [-2.34, -0.16]
- ความแตกต่างเฉลี่ยระหว่างก่อนและหลัง: -1.25
เนื่องจากค่า p ของการทดสอบ (0.02803) น้อยกว่า 0.05 เราจึงปฏิเสธสมมติฐานว่าง
ซึ่งหมายความว่าเรามีหลักฐานเพียงพอที่จะบอกว่าความสูงเฉลี่ยของการกระโดดก่อนและหลังใช้โปรแกรมการฝึกไม่เท่ากัน
แหล่งข้อมูลเพิ่มเติม
ใช้เครื่องคิดเลขออนไลน์ต่อไปนี้เพื่อทำการทดสอบทีต่างๆ โดยอัตโนมัติ:
ตัวอย่างเครื่องคิดเลขทดสอบที
เครื่องคิดเลขทดสอบทีสองตัวอย่าง
เครื่องคำนวณ t-Test ตัวอย่างที่จับคู่