ขนาดเอฟเฟกต์: คืออะไรและเหตุใดจึงสำคัญ


“นัยสำคัญทางสถิติคือสิ่งที่น่าสนใจน้อยที่สุดเกี่ยวกับผลลัพธ์ คุณต้องอธิบายผลลัพธ์ในแง่ของขนาด – ไม่เพียงแต่การรักษาส่งผลกระทบต่อผู้คน แต่ยังส่งผลต่อพวกเขามากน้อยเพียงใด -ยีน วี.กลาส


ในเชิงสถิติ เรามักจะใช้ ค่า p เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างสองกลุ่มหรือไม่

ตัวอย่างเช่น สมมติว่าเราต้องการทราบว่าเทคนิคการศึกษาสองแบบที่แตกต่างกันนำไปสู่คะแนนการทดสอบที่แตกต่างกันหรือไม่ ดังนั้นเราจึงมีนักเรียนกลุ่มละ 20 คนที่ใช้เทคนิคการเรียนแบบหนึ่งเพื่อเตรียมตัวสำหรับการทดสอบ ในขณะที่นักเรียนอีกกลุ่มจำนวน 20 คนใช้เทคนิคการเรียนที่แตกต่างกัน จากนั้นเราจะให้นักเรียนแต่ละคนทำแบบทดสอบเดียวกัน

หลังจากทำการทดสอบทีสองตัวอย่างเพื่อหาความแตกต่างในค่าเฉลี่ย เราพบว่าค่า p สำหรับการทดสอบคือ 0.001 หากเราใช้ระดับนัยสำคัญที่ 0.05 หมายความว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างผลลัพธ์เฉลี่ยของทั้งสองกลุ่ม ดังนั้นเทคนิคการเรียนจึงส่งผลต่อผลการทดสอบ

อย่างไรก็ตาม แม้ว่าค่า p-value จะบอกเราว่าเทคนิคการเรียนรู้มีผลกระทบต่อคะแนนการทดสอบ แต่ก็ไม่ได้บอกเรา ถึงขนาด ของผลกระทบนั้น เพื่อให้เข้าใจสิ่งนี้ เราจำเป็นต้องทราบ ขนาดเอฟเฟกต์

ขนาดเอฟเฟกต์คืออะไร?

ขนาดเอฟเฟกต์ เป็นวิธีหาปริมาณความแตกต่างระหว่างสองกลุ่ม

แม้ว่าค่า p จะบอกเราได้ว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างสองกลุ่มหรือไม่ แต่ขนาดของเอฟเฟกต์สามารถบอกเราได้ว่าจริงๆ แล้วความแตกต่างนั้น ใหญ่แค่ไหน ในทางปฏิบัติ ขนาดเอฟเฟกต์มีความน่าสนใจและมีประโยชน์มากกว่าค่า p มาก

มีสามวิธีในการวัดขนาดเอฟเฟกต์ ขึ้นอยู่กับประเภทของการวิเคราะห์ที่คุณกำลังทำ:

1. ผลต่างค่าเฉลี่ยที่ได้มาตรฐาน

เมื่อคุณต้องการศึกษาความแตกต่างเฉลี่ยระหว่างสองกลุ่ม วิธีที่เหมาะสมในการคำนวณขนาดเอฟเฟกต์คือการใช้ ผลต่างเฉลี่ยที่เป็นมาตรฐาน สูตรที่นิยมใช้กันมากที่สุดเรียกว่า Cohen’s d ซึ่งคำนวณได้ดังนี้

D ของ โคเฮน = ( x1x2 )/ วินาที

โดยที่ x 1 และ x 2 เป็นค่าเฉลี่ยตัวอย่างของกลุ่ม 1 และกลุ่ม 2 ตามลำดับ และ s คือค่าเบี่ยงเบนมาตรฐานของประชากรที่ดึงทั้งสองกลุ่มมา

เมื่อใช้สูตรนี้ ขนาดของเอฟเฟกต์จะตีความได้ง่าย:

  • d ของ 1 บ่งชี้ว่าค่าเฉลี่ยของทั้งสองกลุ่มต่างกันด้วยค่าเบี่ยงเบนมาตรฐานหนึ่งค่า
  • d ของ 2 หมายความว่าค่าเฉลี่ยของกลุ่มต่างกันด้วยค่าเบี่ยงเบนมาตรฐาน 2 ค่า
  • ค่า d ของ 2.5 บ่งชี้ว่าค่าเฉลี่ยทั้งสองต่างกันด้วยค่าเบี่ยงเบนมาตรฐาน 2.5 และอื่นๆ

วิธีตีความขนาดเอฟเฟกต์อีกวิธีหนึ่งคือ ขนาดเอฟเฟกต์ 0.3 หมายความว่าคะแนนของบุคคลโดยเฉลี่ยในกลุ่ม 2 มีค่าเบี่ยงเบนมาตรฐาน 0.3 ซึ่งสูงกว่าค่าเฉลี่ยบุคคลของกลุ่ม 1 และจึงเกินคะแนน 62% ของกลุ่ม 1 .

ตารางต่อไปนี้แสดงขนาดเอฟเฟกต์ที่แตกต่างกันและเปอร์เซ็นไทล์ที่สอดคล้องกัน:

ขนาดเอฟเฟกต์ เปอร์เซ็นต์ของกลุ่ม ที่ 2 ซึ่งจะต่ำกว่าค่าเฉลี่ยของคนในกลุ่มที่ 1
0.0 50%
0.2 58%
0.4 66%
0.6 73%
0.8 79%
1.0 84%
1.2 88%
1.4 92%
1.6 95%
1.8 96%
2.0 98%
2.5 99%
3.0 99.9%

ยิ่งขนาดเอฟเฟกต์ใหญ่ขึ้น ความแตกต่างระหว่างบุคคลโดยเฉลี่ยในแต่ละกลุ่มก็จะยิ่งมากขึ้นเท่านั้น

โดยทั่วไป d 0.2 หรือน้อยกว่าถือเป็นขนาดเอฟเฟกต์ขนาดเล็ก d ประมาณ 0.5 ถือเป็นขนาดเอฟเฟกต์ปานกลาง และ d 0.8 หรือมากกว่านั้นถือเป็นขนาดเอฟเฟกต์ขนาดใหญ่

ดังนั้น หากค่าเฉลี่ยของทั้งสองกลุ่มไม่แตกต่างกันอย่างน้อย 0.2 ส่วนเบี่ยงเบนมาตรฐาน ความแตกต่างก็ไม่มีนัยสำคัญ แม้ว่าค่า p จะมีนัยสำคัญทางสถิติก็ตาม

2. ค่าสัมประสิทธิ์สหสัมพันธ์

เมื่อคุณต้องการศึกษาความสัมพันธ์เชิงปริมาณระหว่างตัวแปรสองตัว วิธีที่ใช้กันทั่วไปในการคำนวณขนาดเอฟเฟกต์คือใช้ สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน เป็นการวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปร X และ Y สองตัว โดยมีค่าระหว่าง -1 ถึง 1 โดยที่:

  • -1 บ่งชี้ถึงความสัมพันธ์เชิงเส้นเชิงลบอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
  • 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
  • 1 บ่งชี้ความสัมพันธ์เชิงเส้นเชิงบวกอย่างสมบูรณ์ระหว่างตัวแปรสองตัว

สูตรการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันค่อนข้างซับซ้อน แต่สำหรับผู้ที่สนใจสามารถพบได้ ที่นี่

ยิ่งค่าสัมประสิทธิ์สหสัมพันธ์จากศูนย์มากเท่าใด ความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวก็จะยิ่งแข็งแกร่งขึ้นเท่านั้น สิ่งนี้สามารถเห็นได้ด้วยการสร้างแผนภาพกระจายอย่างง่ายของค่าของตัวแปร X และ Y

ตัวอย่างเช่น แผนภาพกระจายต่อไปนี้จะแสดงค่าของตัวแปรสองตัวที่มีค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ r = 0.94

ค่านี้อยู่ไกลจากศูนย์ ซึ่งบ่งชี้ว่ามีความสัมพันธ์เชิงบวกที่แข็งแกร่งระหว่างตัวแปรทั้งสอง

ในทางกลับกัน Scatterplot ต่อไปนี้จะแสดงค่าของตัวแปรสองตัวที่มีค่าสัมประสิทธิ์สหสัมพันธ์ r = 0.03 ค่านี้ใกล้กับศูนย์ ซึ่งบ่งชี้ว่าแทบไม่มีความสัมพันธ์กันระหว่างตัวแปรทั้งสอง

โดยทั่วไป ขนาดเอฟเฟกต์จะถือว่าน้อยหากค่าของสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน r อยู่ที่ประมาณ 0.1 ค่าปานกลางหาก r อยู่ที่ประมาณ 0.3 และมีขนาดใหญ่หาก r เท่ากับหรือมากกว่า 0.5

3. อัตราต่อรอง

เมื่อคุณต้องการศึกษาโอกาสที่จะประสบความสำเร็จในกลุ่มการรักษาเทียบกับโอกาสที่จะประสบความสำเร็จในกลุ่มควบคุม วิธีที่ใช้กันทั่วไปในการคำนวณขนาดผลลัพธ์คือการใช้ อัตราส่วนอัตราต่อรอง

ตัวอย่างเช่น สมมติว่าเรามีตารางต่อไปนี้:

ขนาดเอฟเฟกต์ #ความสำเร็จ # หมากรุก
กลุ่มบำบัด มี บี
กลุ่มควบคุม VS ดี

อัตราต่อรองจะถูกคำนวณดังนี้:

อัตราต่อรอง = (AD) / (BC)

ยิ่งอัตราส่วนอัตราต่อรองอยู่ที่ 1 มากเท่าใด ความน่าจะเป็นที่การรักษาจะได้ผลจริงก็จะยิ่งสูงขึ้นเท่านั้น

ประโยชน์ของการใช้ขนาดเอฟเฟกต์เหนือค่า P

ขนาดเอฟเฟกต์มีข้อดีมากกว่าค่า p หลายประการ:

1. ขนาดเอฟเฟกต์ช่วยให้เราเข้าใจได้ดีขึ้นว่าความแตกต่างระหว่างสองกลุ่มนั้น ใหญ่แค่ไหน หรือความสัมพันธ์ระหว่างสองกลุ่มนั้น แข็งแกร่งแค่ไหน ค่า p สามารถบอกเราได้เพียงว่า มี ความแตกต่างที่มีนัยสำคัญหรือมีความสัมพันธ์กันที่มีนัยสำคัญหรือไม่

2. ขนาดของเอฟเฟกต์สามารถใช้เพื่อเปรียบเทียบผลลัพธ์ของการศึกษาต่างๆ ที่ดำเนินการในสภาพแวดล้อมที่แตกต่างกันได้ ซึ่งต่างจากค่า p ด้วยเหตุนี้ จึงมักใช้ขนาดเอฟเฟกต์ในการวิเคราะห์เมตา

3. ค่า P อาจได้รับผลกระทบจากขนาดตัวอย่างขนาดใหญ่ ยิ่งขนาดตัวอย่างใหญ่ขึ้น การทดสอบสมมติฐานก็จะยิ่งมีพลังทางสถิติมากขึ้น ทำให้สามารถตรวจจับผลกระทบแม้เพียงเล็กน้อยได้ ซึ่งอาจส่งผลให้ค่า p ต่ำ แม้ว่าเอฟเฟกต์จะมีขนาดเล็กน้อยซึ่งอาจไม่มีความสำคัญในทางปฏิบัติก็ตาม

ตัวอย่างง่ายๆ สามารถอธิบายสิ่งนี้ได้อย่างชัดเจน: สมมติว่าเราต้องการทราบว่าเทคนิคการศึกษาสองเทคนิคนำไปสู่คะแนนการทดสอบที่แตกต่างกันหรือไม่ เรามีกลุ่มนักเรียน 20 คนที่ใช้เทคนิคการเรียนแบบหนึ่ง ในขณะที่อีกกลุ่มหนึ่งมีนักเรียน 20 คนใช้เทคนิคการเรียนที่แตกต่างกัน จากนั้นเราจะให้นักเรียนแต่ละคนทำแบบทดสอบเดียวกัน

คะแนนเฉลี่ยของกลุ่มที่ 1 คือ 90.65 และคะแนนเฉลี่ยของกลุ่มที่ 2 คือ 90.75 ค่าเบี่ยงเบนมาตรฐานสำหรับตัวอย่างที่ 1 คือ 2.77 และค่าเบี่ยงเบนมาตรฐานสำหรับตัวอย่างที่ 2 คือ 2.78

เมื่อเราทำการทดสอบทีแบบอิสระสองตัวอย่าง ปรากฎว่าสถิติการทดสอบคือ -0.113 และค่า p ที่สอดคล้องกันคือ 0.91 ความแตกต่างระหว่างคะแนนสอบเฉลี่ยไม่มีนัยสำคัญทางสถิติ

อย่างไรก็ตาม ให้พิจารณาว่าขนาดตัวอย่างของทั้งสองตัวอย่างมีค่าเท่ากับ 200 หรือไม่ แต่ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานยังคงเหมือนเดิมทุกประการ

ในกรณีนี้ การทดสอบทีแบบอิสระสองตัวอย่างจะเผยให้เห็นว่าสถิติการทดสอบคือ -1.97 และค่า p ที่สอดคล้องกันนั้นต่ำกว่า 0.05 เพียงเล็กน้อย ความแตกต่างระหว่างคะแนนสอบเฉลี่ยมีนัยสำคัญทางสถิติ

สาเหตุเบื้องหลังว่าทำไมตัวอย่างขนาดใหญ่จึงสามารถนำไปสู่ข้อสรุปที่มีนัยสำคัญทางสถิติได้เนื่องมาจากสูตรที่ใช้ในการคำนวณสถิติ การทดสอบที :

สถิติทดสอบ t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

โปรดทราบว่าเมื่อ n 1 และ n 2 มีขนาดเล็ก ตัวส่วนจำนวนเต็มของสถิติ t -test จะมีค่าน้อย และเมื่อคุณหารด้วยจำนวนน้อย คุณจะได้จำนวนมาก. ซึ่งหมายความว่าสถิติของการทดสอบ ที จะมีขนาดใหญ่ และค่า p ที่สอดคล้องกันจะมีน้อย ซึ่งนำไปสู่ผลลัพธ์ที่มีนัยสำคัญทางสถิติ

ขนาดเอฟเฟกต์ที่ดีถือว่าเท่าไหร่?

คำถามที่นักเรียนมักถามคือ ขนาดเอฟเฟกต์ที่ดีจะถือว่ามีขนาดเท่าใด

คำตอบสั้นๆ: ขนาดของเอฟเฟกต์ไม่สามารถเป็น “ดี” หรือ “ไม่ดี” ได้ เนื่องจากเป็นเพียงการวัดขนาดของความแตกต่างระหว่างสองกลุ่มหรือจุดแข็งของความสัมพันธ์ระหว่างสองกลุ่ม

อย่างไรก็ตาม เราสามารถใช้กฎง่ายๆ ต่อไปนี้เพื่อระบุปริมาณว่าขนาดของเอฟเฟกต์มีขนาดเล็ก กลาง หรือใหญ่:

D ของโคเฮน:

  • d 0.2 หรือน้อยกว่าถือเป็นขนาดเอฟเฟกต์ขนาดเล็ก
  • d 0.5 ถือเป็นขนาดเอฟเฟกต์ปานกลาง
  • d 0.8 ขึ้นไปถือเป็นขนาดเอฟเฟกต์ขนาดใหญ่

สัมประสิทธิ์สหสัมพันธ์เพียร์สัน

  • ค่าสัมบูรณ์ของ r ประมาณ 0.1 ถือเป็นขนาดเอฟเฟกต์ขนาดเล็ก
  • ค่าสัมบูรณ์ของ r ประมาณ 0.3 ถือเป็นขนาดเอฟเฟกต์ขนาดกลาง
  • ค่าสัมบูรณ์ของ r ที่มากกว่า 0.5 ถือเป็นขนาดเอฟเฟกต์ขนาดใหญ่

อย่างไรก็ตาม คำจำกัดความของความสัมพันธ์ที่ “แข็งแกร่ง” อาจแตกต่างกันไปในแต่ละฟิลด์ อ่าน บทความนี้ เพื่อทำความเข้าใจสิ่งที่ถือเป็นความสัมพันธ์ที่แข็งแกร่งในอุตสาหกรรมต่างๆ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *