如何在 spss 中计算马氏距离
马哈拉诺比斯距离是多元空间中两点之间的距离。它通常用于检测涉及多个变量的统计分析中的异常值。
本教程介绍如何在 SPSS 中计算马氏距离。
示例:SPSS 中的马哈拉诺比斯距离
假设我们有以下数据集,显示 20 名学生的考试成绩以及他们学习的小时数、参加的模拟考试数量以及他们在课程中的当前成绩:
我们可以使用以下步骤计算数据集中每个观测值的马哈拉诺比斯距离,以确定是否存在多元异常值。
步骤 1:选择线性回归选项。
单击“分析”选项卡,然后单击“回归” ,然后单击“线性” :
步骤 2:选择马哈拉诺比斯选项。
将响应变量分数拖到标记为“Dependent”的框中。将其他三个预测变量拖到标记为独立的框中。然后单击“保存”按钮。在出现的新窗口中,确保选中Mahalanobis旁边的框。然后单击“继续” 。然后单击“确定” 。
单击“确定”后,数据集中每个观测值的马哈拉诺比斯距离将显示在标题为MAH_1的新列中:
我们可以看到有些距离比其他距离大得多。为了确定任何距离是否具有统计显着性,我们需要计算它们的 p 值。
步骤3:计算每个马氏距离的p值。
单击“转换”选项卡,然后单击“计算变量” 。
在“目标变量”框中,为要创建的变量选择一个新名称。我们关心的是“pvalue”。在数字表达式框中,输入以下内容:
1 – CDF.CHISQ(MAH_1, 3)
然后单击“确定” 。
这将产生一个与 3 个自由度的卡方值相对应的 p 值。我们使用3 个自由度,因为我们的回归模型中有 3 个预测变量。
步骤 4:解释 p 值。
单击“确定”后,每个马哈拉诺比斯距离的 p 值将显示在新列中:
默认情况下,SPSS 仅显示具有两位小数的 p 值。您可以通过单击 SPSS 底部的“显示变量”并增加“小数位数”列中的数字来增加小数位数:
返回数据视图后,您可以看到每个 p 值显示为小数点后五位。任何小于 0.001 的p 值都被视为异常值。
我们可以看到第一个观测值是数据集中唯一的异常值,因为它的 p 值小于 0.001:
如何处理异常值
如果您的数据中存在异常值,您有多种选择:
1. 确保异常值不是数据输入错误造成的。
有时,个人在保存数据时只是输入了错误的数据值。如果存在异常值,请首先验证输入的数据值是否正确并且没有错误。
2. 删除异常值。
如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告或分析中提及您删除了异常值。