如何在 excel 中运行 grubbs 测试器


格拉布斯检验是一种统计检验,可用于识别数据集中是否存在异常值。要使用此检验,您正在分析的数据集必须近似正态分布,并且理想情况下必须包含至少 7 个观测值。

注意:如果您认为数据集中存在多个离群值,则应使用广义极端学生差距检验来代替离群值

如果您认为数据集中的最大值是异常值,则检验统计量的计算方式如下:

G = (x最大值x ) / s

如果您认为数据集中的最小值是异常值,则检验统计量的计算方式如下:

G = ( x – x最小值) / s

而如果不确定数据集的最大值或最小值是否为异常值,想要进行双尾检验,则检验统计量计算如下:

G = 最大值|x ix | /秒

其中x是样本均值, s是样本标准差。

测试的临界值计算如下:

G临界= (n-1)t临界/ √[n(n-2 + t 2临界)]

其中 t Critical是自由度为 n-2 的 t 分布的临界值,单侧检验的显着性水平为 α/n,双边检验的显着性水平为 α/(2n)。

示例:Excel 中的 Grubbs 检验

确定值 60 是否为以下数据集中的异常值:

步骤1:首先,我们需要确保数据近似正态分布。为此,我们可以创建一个直方图来验证分布是否大致呈钟形。以下屏幕截图显示了如何使用数据分析工具库在 Excel 中创建直方图:

从直方图中我们可以看出数据近似正态分布。这意味着我们可以进行格拉布斯检验。

Excel 中的直方图

步骤 2:接下来,我们将执行 Grubbs 检验来确定值 60 是否确实是数据集中的异常值。下面的屏幕截图显示了用于执行格拉布斯测试的公式:

单元格 D4 中的检验统计量G3.603219

单元格 D11 中的临界值为2.556581 。由于检验统计量大于临界值,这意味着值 60 确实是该数据集中的异常值。

如果发现异常值该怎么办

如果 Grubbs 检验识别出数据集中的异常值,您有多种选择:

  • 仔细检查以确保该值不是拼写错误或数据输入错误。有时,数据集中显示为异常值的值只是个人在数据输入过程中输入的拼写错误。在做出进一步决定之前,返回并验证输入的值是否正确。
  • 为异常值指定一个新值。如果异常值是由拼写错误或数据输入错误造成的,您可以决定为其分配一个新值,例如数据集的平均值或中位数
  • 删除异常值。如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。

无论您决定如何处理异常值,在提出分析的最终结论时一定要注意它。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注