分散分析 (anova)

この記事では、統計における分散分析 (ANOVA とも呼ばれます) がどのようなものであるかを説明します。したがって、分散分析を行う方法、ANOVA 表とは何か、そして段階的に解決される演習を学習します。さらに、分散分析を実行するために尊重する必要がある事前の仮定は何か、そして最後に、ANOVA 分析の長所と短所は何かを示します。

分散分析 (ANOVA) とは何ですか?

統計学における分散分析はANOVA (分散分析) とも呼ばれ、異なるサンプルの平均間の分散を比較できる手法です。

分散分析 (ANOVA) は、2 つ以上の母集団の平均値間に差があるかどうかを分析するために使用されます。したがって、分散分析を使用すると、サンプル平均間のばらつきを分析することで、2 つ以上のグループの母集団平均が異なるかどうかを判断できます。

したがって、分散分析の帰無仮説は、分析されるすべてのグループの平均が等しいということになります。一方、対立仮説では、少なくとも 1 つの手段が異なると考えられます。

\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}

したがって、分散分析は、2 つ以上のグループの平均を比較する場合に特に役立ちます。このタイプの分析では、平均をペアで比較するのではなく、すべてのグループの平均を同時に調査できるためです。以下では、分散分析のメリットとデメリットを見ていきます。

分散分析テーブル

分散分析は、 ANOVA 表と呼ばれる表にまとめられます。その式は次のとおりです。

分散分析または ANOVA 式

金:

  • n_i

    はサンプルサイズ i です。

  • N

    観測値の合計数です。

  • k

    分散分析における異なるグループの数です。

  • y_{ij}

    はグループ i の値 j です。

  • \overline{y}_{i}

    はグループ i の平均です。

  • \overline{y}

    これは、すべての分析データの平均です。

分散分析 (ANOVA) の例

ANOVA の概念を理解するには、例を段階的に解いて分散分析を行う方法を見てみましょう。

  • 3 つの異なる科目 (A、B、C) で 4 人の学生が取得したスコアを比較する統計調査が実行されます。次の表は、テストで各生徒が取得したスコアの詳細を示しています (最大スコアは 20)。分散分析を実行して、各科目で各生徒が取得したスコアを比較します。

この分散分析の帰無仮説は、3 人の被験者のスコアの平均が等しいということです。一方、帰無仮説は、これらの平均値の一部が異なるというものです。

\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}

分散分析を実行するには、まず各被験者の平均とデータの合計平均を計算します。

\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5

\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75

\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75

\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33

平均値がわかったら、上記の分散分析 (ANOVA) 式を使用して平方和を計算します。

\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}

\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}

\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}

次に、因子、誤差、合計の自由度を決定します。

GL_F=k-1=3-1=2

GL_E=N-k=12-3=9

GL_F=N-1=12-1=11

ここで、因子と誤差の二乗和をそれぞれの自由度で割ることにより、平均二乗誤差を計算します。

MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08

MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17

最後に、前のステップで計算された 2 つの誤差を除算して、F 統計量の値を計算します。

F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08

つまり、サンプル データの ANOVA テーブルは次のようになります。

分散分析(ANOVA)の例

ANOVA 表のすべての値が計算されたら、あとは得られた結果を解釈するだけです。これを行うには、対応する自由度を持つ Snedecor F 分布で F 統計量より大きい値を取得する確率を見つける必要があります。つまり、検定の p 値を決定する必要があります。

P[F>11,08]=0,004″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”172″ style=”vertical-align: -5px;”></p>
</p>
<p>したがって、有意水準 α=0.05 (最も一般的) を採用する場合、検定の p 値が有意水準よりも低いため、帰無仮説を棄却し、対立仮説を受け入れなければなりません。これは、研究されたグループの平均値の少なくとも一部が他のものとは異なることを意味します。</p>
</p>
<p class=0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0

現在、わずか数秒で分散分析を実行できるコンピューター プログラムがいくつかあることに注意してください。ただし、計算の背後にある理論を知ることも重要です。

分散分析 (ANOVA) の仮定

分散分析 (ANOVA) を実行するには、次の条件を満たす必要があります。

  • 独立性: 観測値は互いに独立しています。観測値の独立性を確保する 1 つの方法は、サンプリング プロセスにランダム性を追加することです。
  • 均一分散性: 分散には均一性がなければなりません。つまり、残差の変動性は一定です。
  • 正規性: 残差は正規分布する必要があります。つまり、正規分布に従う必要があります。
  • 連続性: 従属変数は連続的である必要があります。

分散分析 (ANOVA) の種類

分散分析 (ANOVA) には 3 つのタイプがあります。

  • 一元配置分散分析 (一元配置 ANOVA) : 分散分析では、因子は 1 つだけ、つまり独立変数は 1 つだけです。
  • 二元配置分散分析 (二元配置 ANOVA) : 分散分析には 2 つの因子があるため、2 つの独立変数とそれらの間の交互作用が分析されます。
  • 多変量分散分析 (MANOVA) : 分散分析では、複数の従属変数が存在します。目的は、従属変数が変化したときに独立変数の値が変化するかどうかを判断することです。

分散分析 (ANOVA) の長所と短所

最後に、分散分析を使用するのが適切な場合と、このタイプの統計分析の限界は何かを見ていきます。

分散分析 (ANOVA) の主な利点は、3 つ以上のグループを同時に比較できることです。 1 つまたは 2 つのサンプルの平均しか分析できないt 検定とは異なり、分散分析は複数の母集団の平均が同じかどうかを判断するために使用されます。

ただし、分散分析では、どの研究グループの平均値が異なるかはわかりません。有意に異なる平均値があるかどうか、またはすべての平均値が類似しているかどうかのみがわかります。

同様に、分散分析のもう 1 つの欠点は、ANOVA 分析を実行するには、以前の 4 つの仮定 (上記を参照) が満たされなければならないことです。そうでないと、導き出される結論が間違っている可能性があります。したがって、統計データセットがこれら 4 つの要件を満たしていることを常に検証する必要があります。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です