统计重要性与实际重要性的简单解释


统计假设是关于总体参数的假设。例如,我们可以假设某个县的男性平均身高是 68 英寸。关于身高的假设是统计假设,而美国男性的真实平均身高是人口参数

假设检验是一种正式的统计检验,我们用它来拒绝或未能拒绝统计假设。为了进行假设检验,我们从总体中获取随机样本,并在原假设确实为真的情况下确定样本中的数据是否可能发生。

如果在该假设下样本数据的可能性足够小,那么我们可以拒绝零假设并得出结论认为存在效应。

假设零为真,我们确定样本数据是否“足够不可能”的方法是设置一定的显着性水平(通常选择 0.01、0.05 或 0.10),然后检查假设检验的 p 值是否小于比这个重要程度。

如果 p 值小于显着性水平,则我们说结果具有统计显着性。它只是意味着某种效果存在,但并不一定意味着这种效果在现实世界中实际上是实用的。结果可能具有统计显着性,但实际上并不显着

相关: P值和统计显着性的解释

实际重要性

尽管效应量很小,但假设检验有可能产生统计上显着的结果。小效应量可以通过两种主要方式产生低(因此具有统计显着性)p 值:

1. 采样数据的变异性非常低。当样本数据的变异性较低时,假设检验能够对总体效应产生更精确的估计,从而使检验能够检测到甚至很小的效应。

例如,假设我们要对以下两个样本进行独立的双样本 t 检验,这两个样本显示来自两所不同学校的 20 名学生的考试成绩,以确定学校之间的平均考试成绩是否存在显着差异:

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

样本 1 的平均值为85.55 ,样本 2 的平均值为86.40当我们执行独立的双样本 t 检验时,结果表明检验统计量为-5.3065 ,相应的 p 值为<0.0001 。测试结果之间的差异具有统计学意义。

这两个样本的平均测试成绩之间的差异仅为0.85 ,但每所学校测试成绩的低变异性导致了具有统计显着性的结果。请注意,样本 1 的分数标准差为0.51 ,样本 2 的分数标准差为0.50

这种低变异性使得假设检验能够检测到分数之间的微小差异,并使差异具有统计显着性。

低变异性可以得出统计显着性结论的根本原因是独立双样本 t 检验的t检验统计量计算如下:

检验统计量t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

其中 s 2 1和 s 2 2分别表示样本 1 和样本 2 的样本变化。请注意,当这两个数字较小时, t检验统计量的整数分母也较小。

当你除以一个小数时,你会得到一个大数。这意味着t检验统计量会很大,相应的 p 值会很小,从而导致统计显着的结果。

2.样本量非常大。样本量越大,假设检验的统计功效就越大,使其能够检测到甚至很小的影响。尽管影响很小,可能没有实际意义,但这可能会产生统计上显着的结果。

例如,假设我们要对以下两个样本进行独立的双样本 t 检验,这两个样本显示来自两所不同学校的 20 名学生的考试成绩,以确定学校之间的平均考试成绩是否存在显着差异:

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

如果我们为每个样本创建一个箱线图来显示分数的分布,我们可以看到它们看起来非常相似:

样本 1 的平均值为90.65 ,样本 2 的平均值为90.75 。样本 1 的标准差为2.77 ,样本 2 的标准差为2.78当我们执行独立的双样本 t 检验时,结果表明检验统计量为-0.113 ,相应的 p 值为0.91 。平均测试成绩之间的差异不具有统计显着性。

但是,请考虑两个样本的样本大小是否均为200 。在这种情况下,独立的双样本 t 检验将显示检验统计量为-1.97且相应的 p 值略低于0.05 。平均测试成绩之间的差异具有统计显着性。

大样本量可以得出统计显着性结论的根本原因再次回到独立双样本 t 检验的t检验统计量:

检验统计量t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

请注意,当 n 1和 n 2较小时, t检验统计量的整数分母较小。当你除以一个小数时,你会得到一个大数。这意味着t检验统计量会很大,相应的 p 值会很小,从而导致统计显着的结果。

使用主题专业知识来评估实际重要性

为了确定假设检验的统计显着结果是否具有实际意义,通常需要主题专业知识。

在前面的示例中,当我们测试两所学校的考试成绩之间的差异时,拥有在学校工作或管理此类测试的人员的专业知识会很有帮助,以帮助我们确定平均差异是否为 1点存在或不存在。具有实际意义。

例如,平均差 1 分在 alpha = 0.05 水平上可能具有统计显着性,但这是否意味着分数最低的学校应该采用分数最高的学校更高的课程?或者它会涉及太多的管理成本并且实施起来成本太高/太快吗?

仅仅因为两所学校之间的考试成绩在统计上存在显着差异,并不意味着差异的影响大小足以引起教育系统的某种类型的变化。

使用置信区间评估实际意义

确定实际意义的另一个有用工具是置信区间。置信区间为我们提供了真实总体参数可能位于其中的值范围。

例如,让我们回到比较两所学校考试成绩差异的例子。校长可以宣布平均分数差异至少为 5 分,学校才能采用新课程。

在一项研究中,我们可以看到测试分数之间的平均差异为 8 分。然而,围绕该均值的置信区间可以是 [4, 12],表明4可能是平均测试结果之间的真实差异。在这种情况下,校长可以得出结论,学校不会改变计划,因为置信区间表明真实差异可能小于 5。

然而,在另一项研究中我们可以看到,测试结果之间的平均差异仍然是 8 个点,但平均值周围的置信区间可以是 [6, 10]。由于该区间不包含5 ,主管可能会得出结论,测试分数之间的真实差异大于 5 ,从而确定修改程序是有意义的。

结论

总之,这是我们学到的:

  • 仅统计显着性表明是否存在基于一定显着性水平的影响。
  • 实际重要性在于这种效应在现实世界中是否具有实际意义。
  • 我们使用统计分析来确定统计显着性,并使用领域专业知识来评估实际显着性。
  • 当 (1) 样本数据的变异性非常小并且 (2) 样本量非常大时,小的效应量可以产生小的 p 值。
  • 通过在进行假设检验之前设置最小效应量,我们可以更好地评估假设检验的结果(即使它具有统计显着性)在现实世界中是否实际实用。
  • 置信区间可用于确定实际意义。如果最小效应量不在置信区间内,则结果可能具有实际意义。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注