完整指南:何时删除数据中的异常值
异常值是与数据集中的其他值异常远离的观察值。
异常值可能会产生问题,因为它们会影响分析结果。
然而,它们还可以深入了解您研究的数据,因为它们可以揭示异常病例或具有罕见特征的个体。
在任何分析中,您必须决定是删除还是保留异常值。
幸运的是,您可以使用以下流程图来帮助您做出决定:
让我们仔细看看流程图中的每个问题。
异常值是数据输入错误的结果吗?
有时,数据集中的异常值仅仅是数据输入错误的结果。
例如,假设生物学家收集某种植物物种的高度数据并记录以下数据:
- 6.83英寸
- 7.51英寸
- 5.21英寸
- 5.84英寸
- 7.83英寸
- 755英寸
- 6.53英寸
- 6.31英寸
- 5.91英寸
显然,755 英寸的输入是异常值,很可能是数据输入错误的结果。高度很可能应该是 7.55 英寸,但只是输入错误。
如果生物学家保留这一观察结果并计算描述性统计数据,例如样本中植物的平均高度,则该观察结果将极大地扭曲结果,并给出真实平均植物高度的不准确图像。
在这种情况下(以及与此类似的情况),从数据集中删除此异常值是有意义的,因为它是一个错误,而不是要包含在分析中的合法数据点。
异常值是否显着影响分析结果?
如果观察结果是真正的异常值,而不仅仅是数据输入错误的结果,那么我们需要检查异常值是否影响分析结果。
例如,假设一位生物学家正在研究肥料与植物高度之间的关系。她想要拟合一个简单的线性回归模型,使用肥料作为预测变量,将植物高度作为响应变量。
它收集 12 家不同工厂的以下数据:
很明显,最后的观察结果是异常的。
但是,如果我们创建一个散点图来可视化该数据集,我们可以看到无论是否包含异常值,回归线都不会发生太大变化:
在这种情况下,异常值实际上并不违反线性回归模型的任何假设,因此我们可以将其保留在数据集中。
但是,假设我们的数据中有以下异常值:
显然,这个离群值显着影响回归线,因此我们可以拟合一个带有离群值的回归模型和一个不带离群值的回归模型,然后报告两个回归模型的结果。
异常值是否影响分析中所做的假设?
如果异常值不是数据输入错误的结果,并且不会显着影响分析结果,那么我们必须询问异常值是否会影响分析中所做的假设。分析。
如果它不影响假设,我们可以将其保留在数据中。
然而,如果这影响了假设,我们有几种选择:
1. 将其取下。我们可以简单地从数据中删除它,并在报告结果时记下它。
2. 对数据执行转换。我们可以尝试对数据进行转换,而不是删除异常值,例如取数据中所有值的平方根或对数。事实证明,这可以减少异常值,并且常常使数据分布更加正态。
无论您决定如何处理数据中的异常值,您都应该在分析结果中注明您的决定以及您的推理。
其他资源
以下教程解释了如何在不同的统计软件中查找和删除异常值:
如何在 Excel 中查找异常值
如何在 Google 表格中查找异常值
如何在R中查找异常值
如何在Python中查找异常值
SPSS中如何找出异常值