平衡或不平衡设计:有什么区别?
在统计学中,ANOVA(“方差分析”)模型用于确定不同处理水平的均值是否相等。
如果所有治疗组合的样本量相等,则方差分析具有平衡设计。
相反,如果所有治疗组合的样本量不相等,则方差分析具有不平衡设计。
例如,假设我们想要执行单向方差分析来确定三种不同的肥料是否会导致相同的平均植物生长。
下图显示了此单向方差分析的平衡和不平衡设计示例:
在平衡设计中,每个处理中有相同数量的植物。在不平衡设计中,样本量不相等。
或者假设我们想要执行双向方差分析来确定肥料和阳光的不同组合是否会导致相同的平均植物生长。
下图显示了此双向方差分析的平衡和不平衡设计示例:
为什么首选平衡设计?
与不平衡设计相比,平衡设计具有以下优点:
1.当所有治疗组合的样本量相等时,方差分析的功效最高。当功效最高时,当平均值实际上不同时,我们最有可能检测到治疗组合之间的平均值差异。
2. ANOVA 的总体 F 统计量对违反方差齐性假设的情况不太敏感。
不平衡设计是如何发生的?
尽管研究人员试图为方差分析建立平衡设计,但可能出现不平衡设计的原因有多种,包括:
- 个人可以决定中途退出研究
- 植物可能会在研究期间死亡
- 制造工厂可能会关门,无法提供研究所需的某些组件。
体验突然变得不平衡的原因有很多。
如何处理不平衡的设计
如前所述,平衡设计是首选,因为它们提供更高的统计功效和更可靠的测试统计数据。
但是,如果您必须使用不平衡设计进行实验,您有以下三种选择:
1. 无论如何都要进行方差分析。
如果处理组合中的样本量不相等,但满足方差相等的假设,您仍然可以进行方差分析。
众所周知,如果每种处理组合之间的方差始终相等,则方差分析对于不相等的样本量非常稳健。
2. 估算缺失值。
如果治疗组合之间的样本量仅存在细微差异,则可以使用治疗水平的平均值或中位数来估算缺失值。
然而,应谨慎使用此方法,并且仅应在样本量几乎等于开始时使用。
3. 执行非参数检验。
如果样本大小不相等并且不满足方差相等的假设,您可以改为执行与方差分析等效的非参数,例如Kruskal-Wallis 检验。
这种类型的检验对于不等的样本量和治疗组合之间不等的方差更加稳健。