การวิเคราะห์ความแปรปรวน (anova)

บทความนี้จะอธิบายว่าการวิเคราะห์ความแปรปรวนหรือที่เรียกว่า ANOVA คืออะไรในสถิติ ดังนั้น คุณจะค้นพบวิธีการวิเคราะห์ความแปรปรวน ตาราง ANOVA คืออะไร และแบบฝึกหัดที่มีการแก้ไขทีละขั้นตอน นอกจากนี้ ยังแสดงให้เห็นว่าข้อสันนิษฐานก่อนหน้าใดบ้างที่ต้องเคารพในการวิเคราะห์ความแปรปรวน และสุดท้ายคือข้อดีและข้อเสียของการวิเคราะห์ ANOVA

การวิเคราะห์ความแปรปรวน (ANOVA) คืออะไร?

ในสถิติ การวิเคราะห์ความแปรปรวน หรือที่เรียกว่า ANOVA (การวิเคราะห์ความแปรปรวน) เป็นเทคนิคที่ช่วยให้คุณเปรียบเทียบความแปรปรวนระหว่างค่าเฉลี่ยของกลุ่มตัวอย่างต่างๆ

การวิเคราะห์ความแปรปรวน (ANOVA) ใช้เพื่อวิเคราะห์ว่ามีความแตกต่างระหว่างค่าเฉลี่ยของประชากรมากกว่าสองกลุ่มหรือไม่ ดังนั้น การวิเคราะห์ความแปรปรวนช่วยให้เราสามารถระบุได้ว่าค่าเฉลี่ยประชากรของกลุ่มสองกลุ่มขึ้นไปมีความแตกต่างกันหรือไม่ โดยการวิเคราะห์ความแปรปรวนระหว่างค่าเฉลี่ยตัวอย่าง

สมมติฐานว่างของการวิเคราะห์ความแปรปรวนคือค่าเฉลี่ยของกลุ่มทั้งหมดที่วิเคราะห์เท่ากัน ในขณะที่สมมติฐานทางเลือกถือว่าอย่างน้อยหนึ่งวิธีมีความแตกต่างกัน

\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}

ดังนั้น การวิเคราะห์ความแปรปรวนจึงมีประโยชน์อย่างยิ่งสำหรับการเปรียบเทียบค่าเฉลี่ยของกลุ่มมากกว่าสองกลุ่ม เนื่องจากด้วยการวิเคราะห์ประเภทนี้ คุณสามารถศึกษาค่าเฉลี่ยของทุกกลุ่มได้พร้อมๆ กัน แทนที่จะเปรียบเทียบค่าเฉลี่ยเป็นคู่ ด้านล่างนี้เราจะดูว่าข้อดีและข้อเสียของการวิเคราะห์ความแปรปรวนคืออะไร

ตารางความแปรปรวน

การวิเคราะห์ความแปรปรวนสรุปไว้ในตารางที่เรียกว่า ตาราง ANOVA โดยมีสูตรดังนี้

การวิเคราะห์ความแปรปรวนหรือสูตร ANOVA

ทอง:

  • n_i

    คือขนาดตัวอย่าง i

  • N

    คือจำนวนการสังเกตทั้งหมด

  • k

    คือจำนวนกลุ่มต่างๆ ในการวิเคราะห์ความแปรปรวน

  • y_{ij}

    คือค่า j ของกลุ่ม i

  • \overline{y}_{i}

    คือค่าเฉลี่ยของกลุ่ม i

  • \overline{y}

    นี่คือค่าเฉลี่ยของข้อมูลที่วิเคราะห์ทั้งหมด

ตัวอย่างการวิเคราะห์ความแปรปรวน (ANOVA)

เพื่อทำความเข้าใจแนวคิดของ ANOVA ให้เสร็จสิ้น เรามาดูวิธีวิเคราะห์ความแปรปรวนด้วยการแก้ตัวอย่างทีละขั้นตอน

  • มีการศึกษาทางสถิติเพื่อเปรียบเทียบคะแนนที่ได้รับจากนักเรียนสี่คนในสามวิชาที่แตกต่างกัน (A, B และ C) ตารางต่อไปนี้แสดงรายละเอียดคะแนนที่นักเรียนแต่ละคนได้รับจากการทดสอบด้วยคะแนนสูงสุด 20 ทำการวิเคราะห์ความแปรปรวนเพื่อเปรียบเทียบคะแนนที่นักเรียนแต่ละคนได้รับในแต่ละวิชา

สมมติฐานว่างของการวิเคราะห์ความแปรปรวนนี้คือค่าเฉลี่ยของคะแนนของทั้งสามวิชาเท่ากัน ในทางกลับกัน สมมติฐานว่างก็คือว่าค่าเฉลี่ยบางส่วนแตกต่างกัน

\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}

ในการวิเคราะห์ความแปรปรวน สิ่งแรกที่ต้องทำคือการคำนวณค่าเฉลี่ยของแต่ละวิชาและค่าเฉลี่ยรวมของข้อมูล:

\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5

\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75

\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75

\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33

เมื่อเราทราบค่าของค่าเฉลี่ยแล้ว เราจะคำนวณผลรวมของกำลังสองโดยใช้สูตรการวิเคราะห์ความแปรปรวน (ANOVA) ที่เห็นด้านบน:

\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}

\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}

\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}

จากนั้นเราจะกำหนดระดับความเป็นอิสระของปัจจัย ข้อผิดพลาด และผลรวม:

GL_F=k-1=3-1=2

GL_E=N-k=12-3=9

GL_F=N-1=12-1=11

ตอนนี้เราคำนวณค่าคลาดเคลื่อนกำลังสองเฉลี่ยโดยการหารผลรวมของกำลังสองของตัวประกอบและค่าคลาดเคลื่อนตามระดับความเป็นอิสระตามลำดับ:

MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08

MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17

และสุดท้าย เราคำนวณค่าของสถิติ F โดยการหารข้อผิดพลาดทั้งสองที่คำนวณในขั้นตอนก่อนหน้า:

F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08

กล่าวโดยสรุป ตาราง ANOVA สำหรับข้อมูลตัวอย่างจะมีลักษณะดังนี้:

ตัวอย่างการวิเคราะห์ความแปรปรวน (ANOVA)

เมื่อคำนวณค่าทั้งหมดในตาราง ANOVA แล้ว สิ่งที่เหลืออยู่คือการตีความผลลัพธ์ที่ได้รับ ในการทำเช่นนี้ เราจำเป็นต้องค้นหาความน่าจะเป็นที่จะได้ค่าที่มากกว่าสถิติ F ในการแจกแจงของ Snedecor F โดยมีระดับความเป็นอิสระที่สอดคล้องกัน นั่นคือ เราต้องกำหนดค่า p ของการทดสอบ:

P[F>11,08]=0,004″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”172″ style=”vertical-align: -5px;”></p>
</p>
<p> ดังนั้น หากเราใช้ระดับนัยสำคัญ α=0.05 (ค่าที่พบมากที่สุด) เราต้องปฏิเสธสมมติฐานว่างและยอมรับสมมติฐานทางเลือก เนื่องจากค่า p ของการทดสอบต่ำกว่าระดับนัยสำคัญ ซึ่งหมายความว่าอย่างน้อยวิธีการบางกลุ่มของกลุ่มที่ศึกษาก็แตกต่างจากกลุ่มอื่นๆ</p>
</p>
<p class=0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0

ควรสังเกตว่าขณะนี้มีโปรแกรมคอมพิวเตอร์หลายโปรแกรมที่สามารถทำการวิเคราะห์ความแปรปรวนได้ในเวลาเพียงไม่กี่วินาที อย่างไรก็ตาม การรู้ทฤษฎีเบื้องหลังการคำนวณก็เป็นสิ่งสำคัญเช่นกัน

สมมติฐานการวิเคราะห์ความแปรปรวน (ANOVA)

เพื่อที่จะวิเคราะห์ความแปรปรวน (ANOVA) จะต้องเป็นไปตามเงื่อนไขต่อไปนี้:

  • ความเป็นอิสระ : ค่าที่สังเกตได้มีความเป็นอิสระจากกัน วิธีหนึ่งที่จะรับประกันความเป็นอิสระของการสังเกตคือการเพิ่มการสุ่มให้กับกระบวนการสุ่มตัวอย่าง
  • Homoscedasticity : ความแปรปรวนจะต้องมีความสม่ำเสมอ กล่าวคือ ความแปรปรวนของค่าคงเหลือคงที่
  • ความปกติ : ส่วนที่เหลือควรกระจายตามปกติ หรือกล่าวอีกนัยหนึ่ง ควรเป็นไปตามการกระจายแบบปกติ
  • ความต่อเนื่อง : ตัวแปรตามจะต้องต่อเนื่อง

ประเภทของการวิเคราะห์ความแปรปรวน (ANOVA)

การวิเคราะห์ความแปรปรวน (ANOVA) มีสามประเภท :

  • การวิเคราะห์ความแปรปรวนทางเดียว (one-way ANOVA) : ในการวิเคราะห์ความแปรปรวนมีเพียงปัจจัยเดียวเท่านั้น กล่าวคือ มีตัวแปรอิสระเพียงตัวเดียวเท่านั้น
  • การวิเคราะห์ความแปรปรวนแบบสองทาง (การวิเคราะห์ความแปรปรวนแบบสองทาง) : การวิเคราะห์ความแปรปรวนมีสองปัจจัย ดังนั้นตัวแปรอิสระสองตัวและปฏิสัมพันธ์ระหว่างตัวแปรทั้งสองจึงได้รับการวิเคราะห์
  • การวิเคราะห์ความแปรปรวนหลายตัวแปร (MANOVA) : ในการวิเคราะห์ความแปรปรวน จะมีตัวแปรตามมากกว่าหนึ่งตัวแปร เป้าหมายคือการพิจารณาว่าตัวแปรอิสระเปลี่ยนค่าหรือไม่เมื่อตัวแปรตามแปรผัน

ข้อดีและข้อเสียของการวิเคราะห์ความแปรปรวน (ANOVA)

สุดท้าย เราจะดูว่าเมื่อใดจึงเหมาะสมสำหรับเราที่จะใช้การวิเคราะห์ความแปรปรวน และอะไรคือขีดจำกัดของการวิเคราะห์ทางสถิติประเภทนี้

ข้อได้เปรียบหลักของการวิเคราะห์ความแปรปรวน (ANOVA) คือทำให้สามารถเปรียบเทียบมากกว่าสองกลุ่มในเวลาเดียวกันได้ ต่างจาก การทดสอบ t-test ที่คุณสามารถวิเคราะห์ค่าเฉลี่ยของกลุ่มตัวอย่างได้เพียง 1 หรือ 2 ตัวอย่างเท่านั้น การวิเคราะห์ความแปรปรวนจะใช้เพื่อพิจารณาว่าประชากรหลายกลุ่มมีค่าเฉลี่ยเท่ากันหรือไม่

อย่างไรก็ตาม การวิเคราะห์ความแปรปรวนไม่ได้บอกเราว่ากลุ่มการศึกษาใดมีค่าเฉลี่ยที่แตกต่างกัน เพียงช่วยให้เราทราบว่ามีค่าเฉลี่ยที่แตกต่างกันอย่างมีนัยสำคัญ หรือหากค่าเฉลี่ยทั้งหมดคล้ายกัน

ในทำนองเดียวกัน ข้อเสียอีกประการหนึ่งของการวิเคราะห์ความแปรปรวนคือต้องเป็นไปตามสมมติฐานก่อนหน้านี้สี่ข้อ (ดูด้านบน) เพื่อทำการวิเคราะห์ ANOVA มิฉะนั้นข้อสรุปที่สรุปได้อาจผิด ดังนั้นจึงควรตรวจสอบเสมอว่าชุดข้อมูลทางสถิติตรงตามข้อกำหนดทั้งสี่ข้อนี้

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *