Spss中如何识别异常值


异常值是与数据集中的其他值异常远离的观察值。异常值可能会产生问题,因为它们会影响分析结果。

本教程介绍如何在 SPSS 中识别和处理异常值。

SPSS中如何识别异常值

假设我们有以下数据集,显示 15 人的年收入(以千为单位):

确定是否存在异常值的一种方法是为数据集创建箱线图。为此,请单击“分析”选项卡,然后单击“描述性统计” ,然后单击“浏览”

在出现的新窗口中,将可变收入拖动到标记为受抚养人列表的框中。然后单击“统计”并确保选中“百分位数”旁边的框。然后单击“继续” 。然后单击“确定”

单击“确定”后,将出现箱线图:

SPSS 中的箱线图

如果箱线图两端都没有圆圈或星号,则表明不存在异常值。

如果任何数据值超出以下范围,SPSS 就会将其视为异常值:

  • 第三个四分位数 + 1.5*四分位数范围
  • 第一个四分位数 – 1.5*四分位数范围

我们可以通过计算结果中标记为Tukey Hinges 的行中第 75 个百分位数和第 25 个百分位数之间的差值来计算四分位数范围:

SPSS 中 Tukey 铰链的四分位数范围

对于该数据集,四分位数范围为 82 – 36 = 46 。因此,任何超出以下范围的值都将被视为异常值:

  • 82 + 1.5*46 = 151
  • 36 – 1.5*46 = -33

显然,收入不能为负,因此本例中的下限没有用。然而,任何高于 151 的收入都将被视为异常值。

例如,假设数据集中的最大值是 152。这是该数据集的箱线图:

SPSS 中带有异常值的箱线图

圆圈表示数据中存在异常值。数字 15 表示数据集中的哪个观测值是异常值。

如果任何数据值超出以下范围,SPSS 还会将其视为极端异常值

  • 第三个四分位数 + 3*四分位数范围
  • 第一个四分位数 – 3*四分位数范围

因此,在此示例中,超出以下范围的任何值都将被视为极端异常值:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

例如,假设我们数据集中的最大值是 221。这是该数据集的箱线图:

SPSS 箱线图中的极端异常值

星号 (*) 表示数据中存在极端异常值。数字 15 表示数据集中的哪个观测值是极端异常值。

如何处理异常值

如果您的数据中存在异常值,您有多种选择:

1. 确保异常值不是数据输入错误造成的。

有时,个人在保存数据时只是输入了错误的数据值。如果存在异常值,请首先验证输入的值是否正确并且没有错误。

2. 删除异常值。

如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告或分析中提及您删除了异常值。

3.为异常值指定一个新值

如果异常值是数据输入错误的结果,您可以决定为其分配一个新值,例如数据集的平均值或中位数

其他资源

如果您同时处理多个变量,您可能需要使用马氏距离来检测异常值。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注