분산분석(anova)

에 의해 벤자민 앤더슨 8월 2, 2023 통계 댓글 0개

이 기사에서는 ANOVA라고도 알려진 분산 분석이 통계에 무엇인지 설명합니다. 따라서 분산 분석을 수행하는 방법, ANOVA 테이블이 무엇인지, 그리고 단계별 해결 연습을 살펴보겠습니다. 또한, 분산분석을 수행하기 위해 반드시 준수해야 할 사전 가정은 무엇인지, 마지막으로 분산분석 분석의 장점과 단점은 무엇인지 보여준다.

분산 분석(ANOVA)이란 무엇입니까?

통계에서 ANOVA (분산 분석)라고도 하는 분산 분석 은 서로 다른 표본의 평균 간의 분산을 비교할 수 있는 기술입니다.

분산 분석(ANOVA)은 두 개 이상의 모집단 평균 간에 차이가 있는지 분석하는 데 사용됩니다. 따라서 분산 분석을 통해 표본 평균 간의 변동성을 분석하여 두 개 이상의 그룹의 모집단 평균이 다른지 여부를 확인할 수 있습니다.

따라서 분산 분석의 귀무 가설은 분석된 모든 그룹의 평균이 동일하다는 것입니다. 대립 가설은 수단 중 적어도 하나가 다르다는 것을 주장합니다.

$\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}$

따라서 분산 분석은 두 그룹 이상의 평균을 비교하는 데 특히 유용합니다. 이러한 유형의 분석을 사용하면 평균을 쌍으로 비교하는 대신 모든 그룹의 평균을 동시에 연구할 수 있기 때문입니다. 아래에서는 분산분석의 장점과 단점이 무엇인지 살펴보겠습니다.

분산분석표

분산 분석은 ANOVA 테이블 이라는 테이블에 요약되어 있으며 그 공식은 다음과 같습니다.

금:

$n_i$

표본 크기는 i입니다.
$N$

총 관측치 수입니다.
$k$

분산 분석에서 서로 다른 그룹의 수입니다.
$y_{ij}$

는 그룹 i의 j 값입니다.
$\overline{y}_{i}$

그룹 i의 평균입니다.
$\overline{y}$

이는 분석된 모든 데이터의 평균입니다.

분산 분석(ANOVA)의 예

ANOVA의 개념에 대한 이해를 마무리하기 위해, 예제를 하나씩 풀면서 분산분석을 어떻게 하는지 알아보겠습니다.

세 가지 다른 과목(A, B, C)에서 4명의 학생이 얻은 점수를 비교하기 위한 통계 연구가 수행됩니다. 다음 표에서는 최대 점수가 20점인 시험에서 각 학생이 얻은 점수를 자세히 설명합니다. 분산 분석을 수행하여 각 과목에서 각 학생이 얻은 점수를 비교합니다.

이 분산 분석의 귀무 가설은 세 과목의 점수 평균이 동일하다는 것입니다. 반면에 귀무 가설은 이러한 평균 중 일부가 다르다는 것입니다.

$\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}$

분산 분석을 수행하려면 먼저 각 개체의 평균과 데이터의 전체 평균을 계산해야 합니다.

$\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5$

$\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75$

$\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75$

$\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33$

평균의 값을 알고 나면 위에서 본 분산 분석(ANOVA) 공식을 사용하여 제곱합을 계산합니다.

$\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}$

$\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}$

$\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}$

그런 다음 요인, 오류 및 합계의 자유도를 결정합니다.

$GL_F=k-1=3-1=2$

$GL_E=N-k=12-3=9$

$GL_F=N-1=12-1=11$

이제 요인과 오류의 제곱의 합을 각각의 자유도로 나누어 평균 제곱 오류를 계산합니다.

$MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08$

$MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17$

마지막으로 이전 단계에서 계산된 두 오류를 나누어 F 통계 값을 계산합니다.

$F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08$

즉, 예제 데이터에 대한 ANOVA 테이블은 다음과 같습니다.

ANOVA 테이블의 모든 값이 계산되면 남은 것은 얻은 결과를 해석하는 것입니다. 이를 위해서는 해당 자유도를 갖는 Snedecor F 분포에서 F 통계량보다 큰 값을 얻을 확률을 찾아야 합니다. 즉, 테스트의 p-값을 결정해야 합니다.

$P[F>11,08]=0,004″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”172″ style=”vertical-align: -5px;”> 따라서 유의수준 α=0.05(가장 일반적임)를 취하면 검정의 p-값이 유의수준보다 낮기 때문에 귀무가설을 기각하고 대립가설을 채택해야 합니다. 이는 연구된 그룹의 수단 중 적어도 일부가 다른 그룹과 다르다는 것을 의미합니다. <p class=$ $0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0$

현재 단 몇 초 만에 분산 분석을 수행할 수 있는 여러 컴퓨터 프로그램이 있다는 점에 유의해야 합니다. 그러나 계산 뒤에 숨어 있는 이론을 아는 것도 중요합니다.

분산분석(ANOVA) 가정

분산 분석(ANOVA)을 수행하려면 다음 조건이 충족되어야 합니다.

독립성(Independent) : 관찰된 값은 서로 독립적입니다. 관찰의 독립성을 보장하는 한 가지 방법은 샘플링 프로세스에 무작위성을 추가하는 것입니다.
동분산성(homoscedasticity) : 분산에는 동질성이 있어야 합니다. 즉, 잔차의 변동성이 일정해야 합니다.
정규성(Normality) : 잔차가 정규분포를 따라야 한다. 즉, 정규분포를 따라야 한다.
연속성 : 종속변수는 연속형이어야 합니다.

분산분석(ANOVA) 유형

분산 분석(ANOVA)에는 세 가지 유형이 있습니다.

일원 분산 분석(one-way ANOVA) : 분산 분석에는 요인이 하나만 있습니다. 즉, 독립 변수가 하나만 있습니다.
양방향 분산 분석(two-way ANOVA) : 분산 분석에는 두 가지 요인이 있으므로 두 개의 독립 변수와 이들 간의 상호 작용을 분석합니다.
다변량 분산 분석(MANOVA) : 분산 분석에는 하나 이상의 종속 변수가 있습니다. 목표는 종속변수가 변할 때 독립변수의 값이 변하는지 여부를 확인하는 것입니다.

분산분석(ANOVA)의 장점과 단점

마지막으로 분산 분석을 사용하는 것이 적절한 시기와 이러한 유형의 통계 분석의 한계는 무엇인지 살펴보겠습니다.

분산 분석(ANOVA)의 주요 장점은 두 개 이상의 그룹을 동시에 비교할 수 있다는 것입니다. 하나 또는 두 개의 표본의 평균만 분석할 수 있는 t-검정 과 달리 분산 분석은 여러 모집단의 평균이 동일한지 여부를 확인하는 데 사용됩니다.

그러나 분산 분석은 어떤 연구 그룹이 다른 평균을 가지고 있는지 알려주지 않으며, 유의미하게 다른 평균이 있는지 또는 모든 평균이 유사한지 여부만 알 수 있습니다.

마찬가지로, 분산 분석의 또 다른 단점은 분산 분석을 수행하기 위해 이전의 네 가지 가정(위 참조)이 충족되어야 하며, 그렇지 않으면 도출된 결론이 잘못될 수 있다는 것입니다. 따라서 통계 데이터 세트가 이 네 가지 요구 사항을 충족하는지 항상 확인해야 합니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기