분산분석(anova)

이 기사에서는 ANOVA라고도 알려진 분산 분석이 통계에 무엇인지 설명합니다. 따라서 분산 분석을 수행하는 방법, ANOVA 테이블이 무엇인지, 그리고 단계별 해결 연습을 살펴보겠습니다. 또한, 분산분석을 수행하기 위해 반드시 준수해야 할 사전 가정은 무엇인지, 마지막으로 분산분석 분석의 장점과 단점은 무엇인지 보여준다.

분산 분석(ANOVA)이란 무엇입니까?

통계에서 ANOVA (분산 분석)라고도 하는 분산 분석 은 서로 다른 표본의 평균 간의 분산을 비교할 수 있는 기술입니다.

분산 분석(ANOVA)은 두 개 이상의 모집단 평균 간에 차이가 있는지 분석하는 데 사용됩니다. 따라서 분산 분석을 통해 표본 평균 간의 변동성을 분석하여 두 개 이상의 그룹의 모집단 평균이 다른지 여부를 확인할 수 있습니다.

따라서 분산 분석의 귀무 가설은 분석된 모든 그룹의 평균이 동일하다는 것입니다. 대립 가설은 수단 중 적어도 하나가 다르다는 것을 주장합니다.

\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}

따라서 분산 분석은 두 그룹 이상의 평균을 비교하는 데 특히 유용합니다. 이러한 유형의 분석을 사용하면 평균을 쌍으로 비교하는 대신 모든 그룹의 평균을 동시에 연구할 수 있기 때문입니다. 아래에서는 분산분석의 장점과 단점이 무엇인지 살펴보겠습니다.

분산분석표

분산 분석은 ANOVA 테이블 이라는 테이블에 요약되어 있으며 그 공식은 다음과 같습니다.

분산 분석 또는 ANOVA 공식

금:

  • n_i

    표본 크기는 i입니다.

  • N

    총 관측치 수입니다.

  • k

    분산 분석에서 서로 다른 그룹의 수입니다.

  • y_{ij}

    는 그룹 i의 j 값입니다.

  • \overline{y}_{i}

    그룹 i의 평균입니다.

  • \overline{y}

    이는 분석된 모든 데이터의 평균입니다.

분산 분석(ANOVA)의 예

ANOVA의 개념에 대한 이해를 마무리하기 위해, 예제를 하나씩 풀면서 분산분석을 어떻게 하는지 알아보겠습니다.

  • 세 가지 다른 과목(A, B, C)에서 4명의 학생이 얻은 점수를 비교하기 위한 통계 연구가 수행됩니다. 다음 표에서는 최대 점수가 20점인 시험에서 각 학생이 얻은 점수를 자세히 설명합니다. 분산 분석을 수행하여 각 과목에서 각 학생이 얻은 점수를 비교합니다.

이 분산 분석의 귀무 가설은 세 과목의 점수 평균이 동일하다는 것입니다. 반면에 귀무 가설은 이러한 평균 중 일부가 다르다는 것입니다.

\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}

분산 분석을 수행하려면 먼저 각 개체의 평균과 데이터의 전체 평균을 계산해야 합니다.

\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5

\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75

\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75

\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33

평균의 값을 알고 나면 위에서 본 분산 분석(ANOVA) 공식을 사용하여 제곱합을 계산합니다.

\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}

\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}

\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}

그런 다음 요인, 오류 및 합계의 자유도를 결정합니다.

GL_F=k-1=3-1=2

GL_E=N-k=12-3=9

GL_F=N-1=12-1=11

이제 요인과 오류의 제곱의 합을 각각의 자유도로 나누어 평균 제곱 오류를 계산합니다.

MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08

MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17

마지막으로 이전 단계에서 계산된 두 오류를 나누어 F 통계 값을 계산합니다.

F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08

즉, 예제 데이터에 대한 ANOVA 테이블은 다음과 같습니다.

분산 분석(ANOVA)의 예

ANOVA 테이블의 모든 값이 계산되면 남은 것은 얻은 결과를 해석하는 것입니다. 이를 위해서는 해당 자유도를 갖는 Snedecor F 분포에서 F 통계량보다 큰 값을 얻을 확률을 찾아야 합니다. 즉, 테스트의 p-값을 결정해야 합니다.

P[F>11,08]=0,004″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”172″ style=”vertical-align: -5px;”></p>
</p>
<p> 따라서 유의수준 α=0.05(가장 일반적임)를 취하면 검정의 p-값이 유의수준보다 낮기 때문에 귀무가설을 기각하고 대립가설을 채택해야 합니다. 이는 연구된 그룹의 수단 중 적어도 일부가 다른 그룹과 다르다는 것을 의미합니다.</p>
</p>
<p class=0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0

현재 단 몇 초 만에 분산 분석을 수행할 수 있는 여러 컴퓨터 프로그램이 있다는 점에 유의해야 합니다. 그러나 계산 뒤에 숨어 있는 이론을 아는 것도 중요합니다.

분산분석(ANOVA) 가정

분산 분석(ANOVA)을 수행하려면 다음 조건이 충족되어야 합니다.

  • 독립성(Independent) : 관찰된 값은 서로 독립적입니다. 관찰의 독립성을 보장하는 한 가지 방법은 샘플링 프로세스에 무작위성을 추가하는 것입니다.
  • 동분산성(homoscedasticity) : 분산에는 동질성이 있어야 합니다. 즉, 잔차의 변동성이 일정해야 합니다.
  • 정규성(Normality) : 잔차가 정규분포를 따라야 한다. 즉, 정규분포를 따라야 한다.
  • 연속성 : 종속변수는 연속형이어야 합니다.

분산분석(ANOVA) 유형

분산 분석(ANOVA)에는 세 가지 유형이 있습니다.

  • 일원 분산 분석(one-way ANOVA) : 분산 분석에는 요인이 하나만 있습니다. 즉, 독립 변수가 하나만 있습니다.
  • 양방향 분산 분석(two-way ANOVA) : 분산 분석에는 두 가지 요인이 있으므로 두 개의 독립 변수와 이들 간의 상호 작용을 분석합니다.
  • 다변량 분산 분석(MANOVA) : 분산 분석에는 하나 이상의 종속 변수가 있습니다. 목표는 종속변수가 변할 때 독립변수의 값이 변하는지 여부를 확인하는 것입니다.

분산분석(ANOVA)의 장점과 단점

마지막으로 분산 분석을 사용하는 것이 적절한 시기와 이러한 유형의 통계 분석의 한계는 무엇인지 살펴보겠습니다.

분산 분석(ANOVA)의 주요 장점은 두 개 이상의 그룹을 동시에 비교할 수 있다는 것입니다. 하나 또는 두 개의 표본의 평균만 분석할 수 있는 t-검정 과 달리 분산 분석은 여러 모집단의 평균이 동일한지 여부를 확인하는 데 사용됩니다.

그러나 분산 분석은 어떤 연구 그룹이 다른 평균을 가지고 있는지 알려주지 않으며, 유의미하게 다른 평균이 있는지 또는 모든 평균이 유사한지 여부만 알 수 있습니다.

마찬가지로, 분산 분석의 또 다른 단점은 분산 분석을 수행하기 위해 이전의 네 가지 가정(위 참조)이 충족되어야 하며, 그렇지 않으면 도출된 결론이 잘못될 수 있다는 것입니다. 따라서 통계 데이터 세트가 이 네 가지 요구 사항을 충족하는지 항상 확인해야 합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다