Spss中如何识别异常值
异常值是与数据集中的其他值异常远离的观察值。异常值可能会产生问题,因为它们会影响分析结果。
本教程介绍如何在 SPSS 中识别和处理异常值。
SPSS中如何识别异常值
假设我们有以下数据集,显示 15 人的年收入(以千为单位):
确定是否存在异常值的一种方法是为数据集创建箱线图。为此,请单击“分析”选项卡,然后单击“描述性统计” ,然后单击“浏览” :
在出现的新窗口中,将可变收入拖动到标记为受抚养人列表的框中。然后单击“统计”并确保选中“百分位数”旁边的框。然后单击“继续” 。然后单击“确定” 。
单击“确定”后,将出现箱线图:
如果箱线图两端都没有圆圈或星号,则表明不存在异常值。
如果任何数据值超出以下范围,SPSS 就会将其视为异常值:
- 第三个四分位数 + 1.5*四分位数范围
- 第一个四分位数 – 1.5*四分位数范围
我们可以通过计算结果中标记为Tukey Hinges 的行中第 75 个百分位数和第 25 个百分位数之间的差值来计算四分位数范围:
对于该数据集,四分位数范围为 82 – 36 = 46 。因此,任何超出以下范围的值都将被视为异常值:
- 82 + 1.5*46 = 151
- 36 – 1.5*46 = -33
显然,收入不能为负,因此本例中的下限没有用。然而,任何高于 151 的收入都将被视为异常值。
例如,假设数据集中的最大值是 152。这是该数据集的箱线图:
圆圈表示数据中存在异常值。数字 15 表示数据集中的哪个观测值是异常值。
如果任何数据值超出以下范围,SPSS 还会将其视为极端异常值:
- 第三个四分位数 + 3*四分位数范围
- 第一个四分位数 – 3*四分位数范围
因此,在此示例中,超出以下范围的任何值都将被视为极端异常值:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
例如,假设我们数据集中的最大值是 221。这是该数据集的箱线图:
星号 (*) 表示数据中存在极端异常值。数字 15 表示数据集中的哪个观测值是极端异常值。
如何处理异常值
如果您的数据中存在异常值,您有多种选择:
1. 确保异常值不是数据输入错误造成的。
有时,个人在保存数据时只是输入了错误的数据值。如果存在异常值,请首先验证输入的值是否正确并且没有错误。
2. 删除异常值。
如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告或分析中提及您删除了异常值。
3.为异常值指定一个新值。
如果异常值是数据输入错误的结果,您可以决定为其分配一个新值,例如数据集的平均值或中位数。
其他资源
如果您同时处理多个变量,您可能需要使用马氏距离来检测异常值。