คำอธิบายง่ายๆ เกี่ยวกับความสำคัญทางสถิติและเชิงปฏิบัติ


สมมติฐานทางสถิติ คือสมมติฐานเกี่ยวกับ พารามิเตอร์ประชากร ตัวอย่างเช่น เราสามารถสรุปได้ว่าความสูงเฉลี่ยของผู้ชายในเขตใดเขตหนึ่งคือ 68 นิ้ว สมมติฐานเกี่ยวกับความสูงเป็น สมมติฐานทางสถิติ และความสูงเฉลี่ยที่แท้จริงของผู้ชายในสหรัฐอเมริกาคือ พารามิเตอร์ประชากร

การทดสอบสมมติฐาน คือการทดสอบทางสถิติอย่างเป็นทางการที่เราใช้เพื่อปฏิเสธหรือไม่ปฏิเสธสมมติฐานทางสถิติ เพื่อทำการทดสอบสมมติฐาน เราจะสุ่มตัวอย่างจากประชากรและพิจารณาว่าข้อมูลในกลุ่มตัวอย่างมีแนวโน้มที่จะเกิดขึ้นหรือไม่ โดยพิจารณาว่าสมมติฐานว่างนั้นเป็นจริงหรือไม่

หากข้อมูลตัวอย่างไม่น่าจะเป็นไปได้เพียงพอภายใต้สมมติฐานนี้ เราก็สามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่ามีผลกระทบอยู่

วิธีที่เราพิจารณาว่าข้อมูลตัวอย่าง “ไม่น่าจะเพียงพอ” โดยสมมติว่าศูนย์เป็นจริงหรือไม่คือการตั้งค่าระดับนัยสำคัญ (โดยปกติจะเลือกเป็น 0.01, 0.05 หรือ 0.10) จากนั้นตรวจสอบว่าค่า p ของการทดสอบสมมติฐานน้อยกว่าหรือไม่ กว่าความสำคัญระดับนี้

หากค่า p น้อยกว่าระดับนัยสำคัญ เราจะบอกว่าผลลัพธ์มี นัยสำคัญทางสถิติ มันแค่หมายความว่ามีเอฟเฟกต์บางอย่างอยู่ แต่ไม่ได้หมายความว่าเอฟเฟกต์นี้ใช้ได้จริงในโลกแห่งความเป็นจริง ผลลัพธ์อาจมีนัยสำคัญทางสถิติโดยไม่มี นัยสำคัญในทางปฏิบัติ

ที่เกี่ยวข้อง: คำอธิบายค่า P และนัยสำคัญทางสถิติ

ความสำคัญในทางปฏิบัติ

เป็นไปได้ที่การทดสอบสมมติฐานจะให้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ แม้ว่าจะมีผลกระทบเพียงเล็กน้อยก็ตาม มีสองวิธีหลักที่ขนาดเอฟเฟกต์ขนาดเล็กสามารถสร้างค่า p ที่ต่ำ (และมีนัยสำคัญทางสถิติ):

1. ความแปรปรวนของข้อมูลตัวอย่างต่ำมาก เมื่อข้อมูลตัวอย่างของคุณมีความแปรปรวนต่ำ การทดสอบสมมติฐานจะสามารถสร้างการประมาณผลกระทบของประชากรได้แม่นยำยิ่งขึ้น ช่วยให้การทดสอบตรวจจับได้แม้แต่ผลกระทบเล็กๆ น้อยๆ

ตัวอย่างเช่น สมมติว่าเราต้องการทำการทดสอบทีแบบอิสระสองตัวอย่างกับสองตัวอย่างต่อไปนี้ซึ่งแสดงคะแนนสอบของนักเรียน 20 คนจากโรงเรียนสองแห่งที่แตกต่างกัน เพื่อพิจารณาว่าคะแนนสอบเฉลี่ยระหว่างโรงเรียนแตกต่างกันอย่างมีนัยสำคัญหรือไม่:

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

ค่าเฉลี่ยของกลุ่มตัวอย่างที่ 1 คือ 85.55 และค่าเฉลี่ยของกลุ่มตัวอย่างที่ 2 คือ 86.40 เมื่อเราทำการทดสอบทีแบบอิสระสองตัวอย่าง ปรากฎว่าสถิติการทดสอบคือ -5.3065 และค่า p ที่สอดคล้องกันคือ <0.0001 ความแตกต่างระหว่างผลการทดสอบมีนัยสำคัญทางสถิติ

ความแตกต่างระหว่างคะแนนสอบเฉลี่ยสำหรับทั้งสองตัวอย่างนี้อยู่ที่ 0.85 เท่านั้น แต่คะแนนสอบที่มีความแปรปรวนต่ำสำหรับแต่ละโรงเรียนส่งผลให้ได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ โปรดทราบว่าค่าเบี่ยงเบนมาตรฐานของคะแนนคือ 0.51 สำหรับตัวอย่างที่ 1 และ 0.50 สำหรับตัวอย่างที่ 2

ความแปรปรวนต่ำนี้คือสิ่งที่ทำให้การทดสอบสมมติฐานสามารถตรวจจับความแตกต่างเล็กน้อยระหว่างคะแนน และปล่อยให้ความแตกต่างมีนัยสำคัญทางสถิติ

สาเหตุเบื้องหลังว่าทำไมความแปรปรวนต่ำสามารถนำไปสู่ข้อสรุปที่มีนัยสำคัญทางสถิติก็คือ สถิติการทดสอบ ที สำหรับการทดสอบทีแบบอิสระสองตัวอย่างได้รับการคำนวณดังนี้:

สถิติทดสอบ t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

โดยที่ s 2 1 และ s 2 2 ระบุความแปรผันของตัวอย่างสำหรับตัวอย่างที่ 1 และตัวอย่างที่ 2 ตามลำดับ โปรดทราบว่าเมื่อตัวเลขสองตัวนี้มีค่าน้อย ตัวส่วนจำนวนเต็มของสถิติการทดสอบ t จะมีค่าน้อย

และเมื่อคุณหารด้วยจำนวนน้อย คุณจะได้จำนวนมาก. ซึ่งหมายความว่าสถิติของการทดสอบ ที จะมีขนาดใหญ่ และค่า p ที่สอดคล้องกันจะมีน้อย ซึ่งนำไปสู่ผลลัพธ์ที่มีนัยสำคัญทางสถิติ

2. ขนาดตัวอย่างมีขนาดใหญ่มาก ยิ่งขนาดตัวอย่างใหญ่ขึ้น การทดสอบสมมติฐานก็จะยิ่งมีพลังทางสถิติมากขึ้น ทำให้สามารถตรวจจับผลกระทบแม้เพียงเล็กน้อยได้ สิ่งนี้สามารถนำไปสู่ผลลัพธ์ที่มีนัยสำคัญทางสถิติ แม้ว่าจะมีผลกระทบเล็กน้อยที่อาจไม่มีนัยสำคัญในทางปฏิบัติก็ตาม

ตัวอย่างเช่น สมมติว่าเราต้องการทำการทดสอบทีแบบอิสระสองตัวอย่างกับสองตัวอย่างต่อไปนี้ซึ่งแสดงคะแนนสอบของนักเรียน 20 คนจากโรงเรียนสองแห่งที่แตกต่างกัน เพื่อพิจารณาว่าคะแนนสอบเฉลี่ยระหว่างโรงเรียนแตกต่างกันอย่างมีนัยสำคัญหรือไม่:

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

หากเราสร้าง boxplot สำหรับแต่ละตัวอย่างเพื่อแสดงการแจกแจงคะแนน เราจะเห็นว่าสิ่งเหล่านั้นดูคล้ายกันมาก:

ค่าเฉลี่ยของกลุ่มตัวอย่างที่ 1 คือ 90.65 และค่าเฉลี่ยของกลุ่มตัวอย่างที่ 2 คือ 90.75 ค่าเบี่ยงเบนมาตรฐานสำหรับตัวอย่างที่ 1 คือ 2.77 และค่าเบี่ยงเบนมาตรฐานสำหรับตัวอย่างที่ 2 คือ 2.78 เมื่อเราทำการทดสอบทีแบบอิสระสองตัวอย่าง ปรากฎว่าสถิติการทดสอบคือ -0.113 และค่า p ที่สอดคล้องกันคือ 0.91 ความแตกต่างระหว่างคะแนนสอบเฉลี่ยไม่มีนัยสำคัญทางสถิติ

อย่างไรก็ตาม ให้พิจารณาว่าขนาดของกลุ่มตัวอย่างทั้งสองมีขนาดเท่ากับ 200 หรือ ไม่ ในกรณีนี้ การทดสอบทีแบบอิสระสองตัวอย่างจะเผยให้เห็นว่าสถิติการทดสอบคือ -1.97 และค่า p ที่สอดคล้องกันนั้นต่ำกว่า 0.05 เพียงเล็กน้อย ความแตกต่างระหว่างคะแนนสอบเฉลี่ยมีนัยสำคัญทางสถิติ

สาเหตุเบื้องหลังว่าทำไมกลุ่มตัวอย่างขนาดใหญ่สามารถนำไปสู่ข้อสรุปที่มีนัยสำคัญทางสถิติได้ย้อนกลับไปที่สถิติการทดสอบ t- test สำหรับการทดสอบ t-test สองตัวอย่างอิสระอีกครั้ง:

สถิติทดสอบ t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

โปรดทราบว่าเมื่อ n 1 และ n 2 มีขนาดเล็ก ตัวส่วนจำนวนเต็มของสถิติ t -test จะมีค่าน้อย และเมื่อคุณหารด้วยจำนวนน้อย คุณจะได้จำนวนมาก. ซึ่งหมายความว่าสถิติของการทดสอบ ที จะมีขนาดใหญ่ และค่า p ที่สอดคล้องกันจะมีน้อย ซึ่งนำไปสู่ผลลัพธ์ที่มีนัยสำคัญทางสถิติ

ใช้ความเชี่ยวชาญเฉพาะด้านเพื่อประเมินความสำคัญเชิงปฏิบัติ

เพื่อตรวจสอบว่าผลลัพธ์ที่มีนัยสำคัญทางสถิติจากการทดสอบสมมติฐานนั้นมีความหมายในทางปฏิบัติหรือไม่ มักจำเป็นต้องมีความเชี่ยวชาญเฉพาะด้าน

ในตัวอย่างก่อนหน้านี้ เมื่อเราทดสอบความแตกต่างระหว่างคะแนนสอบจากโรงเรียนสองแห่ง การมีความเชี่ยวชาญของคนที่ทำงานในโรงเรียนหรือผู้ดูแลการทดสอบประเภทนี้จะเป็นประโยชน์มาก เพื่อช่วยเราพิจารณาว่าความแตกต่างโดยเฉลี่ยคือ 1 หรือไม่ มีจุดอยู่หรือไม่ มีผลกระทบในทางปฏิบัติ

ตัวอย่างเช่น ค่าเฉลี่ยผลต่าง 1 จุดอาจมีนัยสำคัญทางสถิติที่ระดับ alpha = 0.05 แต่นั่นหมายความว่าโรงเรียนที่มีคะแนนต่ำสุดควรนำโปรแกรมที่โรงเรียนที่มีคะแนนสูงสุดใช้สูงกว่ามาใช้หรือไม่ หรือจะเกี่ยวข้องกับค่าใช้จ่ายในการบริหารจัดการมากเกินไปและมีค่าใช้จ่ายสูง/รวดเร็วเกินไปในการดำเนินการ?

เพียงเพราะว่าคะแนนสอบระหว่างสองโรงเรียนมีความแตกต่างกันอย่างมีนัยสำคัญทางสถิติไม่ได้หมายความว่าขนาดของผลต่างจะมีมากพอที่จะทำให้เกิดการเปลี่ยนแปลงบางอย่างในระบบการศึกษา

การใช้ช่วงความเชื่อมั่นเพื่อประเมินความสำคัญเชิงปฏิบัติ

เครื่องมือที่มีประโยชน์อีกประการหนึ่งสำหรับการพิจารณาความสำคัญเชิงปฏิบัติคือ ช่วงความเชื่อมั่น ช่วงความมั่นใจทำให้เรามีช่วงของค่าที่พารามิเตอร์ประชากรที่แท้จริงมีแนวโน้มที่จะโกหก

ตัวอย่างเช่น ลองกลับมาที่ตัวอย่างการเปรียบเทียบความแตกต่างในคะแนนสอบระหว่างสองโรงเรียน ครูใหญ่อาจประกาศว่าคะแนนเฉลี่ยที่แตกต่างกันอย่างน้อย 5 คะแนนเป็นสิ่งจำเป็นสำหรับโรงเรียนในการรับโปรแกรมใหม่

ในการศึกษาชิ้นหนึ่ง เราจะเห็นว่าคะแนนสอบต่างกันโดยเฉลี่ยอยู่ที่ 8 คะแนน อย่างไรก็ตาม ช่วงความเชื่อมั่นรอบๆ ค่าเฉลี่ยนี้สามารถเป็น [4, 12] ซึ่งบ่งชี้ว่า 4 อาจเป็นความแตกต่างที่แท้จริงระหว่างผลการทดสอบโดยเฉลี่ย ในกรณีนี้ ครูใหญ่สามารถสรุปได้ว่าโรงเรียนจะไม่เปลี่ยนโปรแกรมเนื่องจากช่วงความเชื่อมั่นบ่งชี้ว่าผลต่างที่แท้จริงอาจน้อยกว่า 5

อย่างไรก็ตาม ในการศึกษาอื่น เราจะเห็นว่าความแตกต่างโดยเฉลี่ยระหว่างผลการทดสอบคืออีก 8 จุด แต่ช่วงความเชื่อมั่นรอบๆ ค่าเฉลี่ยอาจเป็น [6, 10] เนื่องจากช่วงเวลานี้ไม่มี 5 ผู้อำนวยการอาจสรุปได้ว่าความแตกต่างที่แท้จริงระหว่างคะแนนการทดสอบมากกว่า 5 และด้วยเหตุนี้จึงพิจารณาว่าเหมาะสมที่จะแก้ไขโปรแกรม

บทสรุป

โดยสรุป นี่คือสิ่งที่เราเรียนรู้:

  • นัยสำคัญทางสถิติเพียงอย่างเดียว บ่งชี้ว่ามีผลกระทบตามระดับนัยสำคัญบางระดับหรือไม่
  • ความสำคัญเชิงปฏิบัติ คือผลกระทบนี้มีผลกระทบเชิงปฏิบัติในโลกแห่งความเป็นจริงหรือไม่
  • เราใช้การวิเคราะห์ทางสถิติเพื่อกำหนดนัยสำคัญทางสถิติและความเชี่ยวชาญด้านโดเมนเพื่อประเมินนัยสำคัญในทางปฏิบัติ
  • ขนาดเอฟเฟกต์ขนาดเล็กสามารถสร้างค่า p ได้น้อย เมื่อ (1) ความแปรปรวนของข้อมูลตัวอย่างมีขนาดเล็กมากและเมื่อ (2) ขนาดตัวอย่างมีขนาดใหญ่มาก
  • ด้วยการกำหนดขนาดเอฟเฟกต์ขั้นต่ำก่อนดำเนินการทดสอบสมมติฐาน เราจะประเมินได้ดีขึ้นว่าผลลัพธ์ของการทดสอบสมมติฐาน (แม้ว่าจะมีนัยสำคัญทางสถิติก็ตาม) นั้นใช้ได้จริงในโลกแห่งความเป็นจริงหรือไม่
  • ช่วงความเชื่อมั่น จะเป็นประโยชน์ในการพิจารณาความสำคัญเชิงปฏิบัติ หากขนาดเอฟเฟกต์ขั้นต่ำไม่อยู่ในช่วงความเชื่อมั่น ผลลัพธ์ก็อาจมีนัยสำคัญในทางปฏิบัติ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *