Anova で事後テストを使用するためのガイド

によるベンジャミン・アンダーソン博士 7月 29, 2023 ガイド 0コメント

ANOVAは、3 つ以上の独立したグループの平均間に統計的に有意な差があるかどうかを判断するために使用される統計検定です。

ANOVA で使用される仮定は次のとおりです。

帰無仮説 (H ₀ ): µ ₁ = µ ₂ = µ ₃ = … = µ _k (平均は各グループで等しい)

対立仮説: (ハ): 少なくとも 1 つの手段が他の手段とは異なります。

ANOVA のp 値が有意水準を下回っている場合、帰無仮説を棄却し、グループ平均の少なくとも 1 つが他の平均とは異なると言える十分な証拠があると結論付けることができます。

ただし、これではどのグループが互いに異なるかはわかりません。これは単に、すべてのグループの平均が等しいわけではないことを示しています。

どのグループが互いに異なっているかを正確に知るには、事後テスト(多重比較テストとも呼ばれます) を実行する必要があります。これにより、家族を制御しながら複数のグループの平均間の差異を調査できるようになります。。妥当なエラー率。

技術的な注意: ANOVA の p 値が統計的に有意な場合にのみ事後検定を実行する必要があることに注意することが重要です。 p 値が統計的に有意でない場合は、すべてのグループの平均値が互いに異なっていないことを示します。したがって、どのグループが互いに異なるかを判断するために事後テストを実行する必要はありません。

家族のエラー率

前述したように、事後テストを使用すると、ファミリーごとのエラー率を制御しながら、複数のグループの平均間の差をテストすることができます。

仮説検定では、タイプ I の過誤率が常に存在します。これは有意水準 (アルファ) によって定義され、実際に真である帰無仮説が棄却される確率を示します。言い換えれば、これは「偽陽性」、つまりグループ間に統計的に有意な差があると主張しているにもかかわらず、実際にはそうではない場合の確率です。

仮説検定を実行する場合、タイプ I 過誤率は有意水準と等しく、通常は 0.01、0.05、または 0.10 が選択されます。ただし、複数の仮説検定を一度に実行すると、偽陽性が発生する可能性が高くなります。

たとえば、20 面体のサイコロを振ると想像してください。サイコロが「1」の目に出る確率はわずか 5% です。しかし、一度に 2 つのサイコロを振ると、そのうちの 1 つが「1」になる確率は 9.75% に増加します。一度に 5 つのサイコロを振ると、確率は 22.6% に増加します。

サイコロを振るほど、サイコロの 1 つが「1」になる確率が高くなります。同様に、有意水準 0.05 を使用して複数の仮説検定を一度に実行すると、偽陽性が得られる確率はわずか 0.05 を超えて増加します。

ANOVA での多重比較

ANOVA を実行するとき、多くの場合、3 つ以上のグループを比較します。したがって、グループ平均間の差異を調査するために事後検定を実行するときは、複数のペアごとの比較を調査する必要があります。

たとえば、A、B、C、D の 4 つのグループがあるとします。これは、事後テストで調べる必要があるペアごとの比較が合計 6 つあることを意味します。

A – B (グループ A の平均とグループ B の平均の差)
交流
発表
紀元前
漫画
CD

グループが 4 つ以上ある場合、実行するペアごとの比較の数はさらに増加するだけです。次の表は、各グループ数に関連付けられたペアごとの比較の数と、ファミリーごとの誤り率を示しています。

グループ数 (つまりペアごとの比較の数) が増加するにつれて、ファミリーごとのエラー率が急速に増加することに注意してください。実際、グループが 6 つに達すると、偽陽性となる確率は実際には 50% 以上になります。

これは、家族ごとの誤り率が非常に高いことがわかっていて、非常に多くのペアごとの比較を行う必要がある場合、結果に重大な疑問が生じることを意味します。

幸いなことに、事後テストを使用すると、ファミリーごとにエラー率を制御しながら、グループ間で複数の比較を行うことができます。

例:事後テストを使用した一元配置分散分析

次の例は、事後テストで一元配置分散分析を実行する方法を示しています。

注:この例では R プログラミング言語を使用していますが、テスト結果や重要なポイントを理解するために R の知識は必要ありません。

まず、グループごとに 20 個の観測値を持つ 4 つのグループ (A、B、C、D) を含むデータセットを作成します。

 #make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

# group amount
#1 To 2.796526
#2 A 3.116372
#3 A 3.718560
#4 A 4.724623
#5 A 2.605046
#6 A 4.695169

次に、データセットに対して一元配置分散分析を実行します。

 #fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

# Df Sum Sq Mean Sq F value Pr(>F)    
#group 3 25.37 8.458 17.66 8.53e-09 ***
#Residuals 76 36.39 0.479

ANOVA テーブルの結果から、F 統計量が 17.66 で、対応する p 値が非常に小さいことがわかります。

これは、すべてのグループ平均が等しいという帰無仮説を棄却する十分な証拠があることを意味します。次に、事後検定を使用して、どのグループの平均値が互いに異なるかを判断できます。

次の事後テストの例を確認します。

Tukey テスト– 可能なすべてのペアごとの比較を行う場合に便利です

Holm の方法– Tukey テストよりもわずかに保守的なテスト

ダネット補正– 各グループの平均を対照平均と比較し、治療平均を相互に比較したくない場合に便利です。

テューキーテスト

次のように、組み込み R 関数TukeyHSD()を使用して、多重比較の Tukey テストを実行できます。

 #perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

信頼水準を 95% と指定したことに注意してください。これは、ファミリーごとのエラー率を 0.05 にすることを意味します。 R は、各ペアごとの違いを比較するための 2 つのメトリクスを提供します。

平均差の信頼区間 ( lwrとuprの値によって与えられます)
平均差を調整したp値

信頼区間と p 値は同じ結論につながります。

たとえば、グループ C とグループ A の平均差の 95% 信頼区間は (0.2813, 1.4309) で、この区間にはゼロが含まれないため、これら 2 つのグループの平均の差は統計的に有意であることがわかります。特に、信頼区間の下限がゼロより大きいため、差が正であることがわかります。

同様に、グループ C とグループ A の平均差の p 値は 0.0011 で、有意水準の 0.05 よりも低く、これら 2 つのグループの平均間の差が統計的に有意であることも示しています。

R のLot()関数を使用して、Tukey 検定の結果として得られる 95% 信頼区間を視覚化することもできます。

 plot(TukeyHSD(anova_model, conf.level=.95))

区間にゼロが含まれる場合、グループ平均間の差が統計的に有意ではないことがわかります。上の例では、BA と CB の差は統計的に有意ではありませんが、他の 4 つのペアごとの比較の差は統計的に有意です。

ホルムの方法

実行できるもう 1 つの事後テストは、ホルムの方法です。このテストは一般に、Tukey テストよりも保守的であると考えられています。

R で次のコードを使用すると、複数のペア比較のホルム法を実行できます。

 #perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
# Pairwise comparisons using t tests with pooled SD 
#
#data: data_long$amount and data_long$group 
#
#ABC
#B 0.20099 - -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm

この検定では、各ペアごとの比較の p 値のグリッドが提供されます。たとえば、グループ A とグループ B の平均の差の p 値は 0.20099 です。

この検定の p 値を Tukey の検定の p 値と比較すると、グループ C と D の違いを除いて、それぞれのペアごとの比較で同じ結論が得られることがわかります。この差の値は、ホルム法では 0.02108 であったのに対し、テューキー検定では 0.0505 でした。

したがって、Tukey の検定を使用すると、グループ C とグループ D の間の差は 0.05 の有意水準で統計的に有意ではないと結論付けられましたが、ホルムの方法を使用すると、グループ C とグループ D の間の差は統計的に有意であると結論付けられました。

一般に、ホルム法で生成された p 値は、テューキー検定で生成された p 値よりも低くなる傾向があります。

ダネットの訂正

多重比較に使用できるもう 1 つの方法は、Dunett 補正です。このアプローチは、各グループの平均を対照平均と比較したいが、治療平均を相互に比較したくない場合に使用します。

たとえば、以下のコードを使用して、B、C、D のグループ平均をグループ A の平均と比較します。したがって、グループ A を対照グループとして使用し、グループ B、C 間の差には関心がありません。 .、D.

 #load multcomp library necessary for using Dunnett's Correction
library(multicomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#performcomparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Assumptions:
#Estimate Std. Error t value Pr(>|t|)    
#B - A == 0 0.2823 0.2188 1.290 0.432445    
#C - A == 0 0.8561 0.2188 3.912 0.000545 ***
#D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***

出力の p 値から、次のことがわかります。

グループ B の平均とグループ A の平均の差は、有意水準 0.05 では統計的に有意ではありません。この検定の p 値は0.4324です。
グループ C とグループ A の平均の差は、有意水準 0.05 で統計的に有意です。この検定の p 値は0.0005です。
グループ D とグループ A の平均の差は、有意水準 0.05 で統計的に有意です。この検定の p 値は0.00004です。

前述したように、このアプローチではグループ A を「対照」グループとして扱い、他のすべてのグループの平均をグループ A の平均と単純に比較します。グループ B、C、および D 間の差異について検定は実行されないことに注意してください。それはしません。私はこれらのグループ間の違いには興味がありません。

事後テストと統計的検出力に関するメモ

事後テストは、ファミリーごとのエラー率を制御するという優れた機能を果たしますが、トレードオフとして、比較の統計的検出力が低下します。実際、家族ごとの誤り率を下げる唯一の方法は、すべての個別の比較でより低い有意水準を使用することです。

たとえば、6 つのペアごとの比較に Tukey 検定を使用し、家族ごとの誤差率を 0.05 に維持したい場合、個々の有意水準ごとに約 0.011 の有意水準を使用する必要があります。ペアごとの比較を行うほど、個々の有意水準に使用する必要がある有意水準は低くなります。

問題は、有意水準が低いほど統計検出力が低いことです。これは、グループ平均間の差が母集団に実際に存在する場合、検出力の低い研究ではそれを検出する可能性が低いことを意味します。

このトレードオフの影響を軽減する 1 つの方法は、単に実行するペアごとの比較の数を減らすことです。たとえば、前の例では、4 つの異なるグループに対して 6 つのペアごとの比較を実行しました。ただし、研究のニーズによっては、いくつかの比較のみを行うこともできます。

比較の回数を減らすことで、統計的検出力をそれほど低下させる必要がなくなります。

ANOVA を実行する前に、どのグループを比較するか、またどの事後検定を使用して比較を行うかを正確に決定する必要があることに注意することが重要です。そうしないと、どの事後テストが統計的に有意な結果をもたらしたかを単に確認するだけでは、研究の完全性が低下します。

結論

この記事では、次のことを学びました。

ANOVA は、3 つ以上の独立したグループの平均間に統計的に有意な差があるかどうかを判断するために使用されます。
ANOVA で有意水準を下回る p 値が生成された場合は、事後検定を使用して、どのグループの平均値が互いに異なっているかを確認できます。
事後テストを使用すると、いくつかのペアごとの比較を実行しながら、ファミリーごとのエラー率を制御できます。
ファミリごとのエラー率を制御することのトレードオフとして、統計的検出力が低下します。ペアごとの比較を少なくすることで、統計的検出力が低いことによる影響を軽減できます。
まず、ペアごとの比較を実行するグループと、そのために使用する事後テストを決定する必要があります。

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る