统计学中的独立性假设是什么?
许多统计检验假设观察结果是独立的。这意味着数据集中的观察结果彼此不相关或以任何方式相互影响。
例如,假设我们想要测试两种猫之间的平均体重是否存在差异。如果我们测量 10 只属于 A 种的猫和 10 只属于 B 种的猫的体重,如果每组猫都来自同一窝,我们就会违反独立性假设。
有可能物种 A 的母猫生出的都是体重较轻的小猫,而物种 B 的母猫则生出体重较重的小猫。在这方面,每个样本的观察结果并不是相互独立的。
做出这种独立性假设的统计检验有以下三种常见类型:
1.两样本t检验
2.ANOVA (方差分析)
3.线性回归
在以下各节中,我们将解释为什么对每种类型的测试做出此假设以及如何确定是否满足此假设。
t 检验中的独立性假设
双样本 t 检验用于检验两个总体的均值是否相等。
假设:此类测试假设每个样本内的观察结果彼此独立,并且样本之间的观察结果也彼此独立。
检验该假设:检验该假设的最简单方法是验证每个观察值在每个样本中仅出现一次,并且每个样本中的观察值是通过随机抽样收集的。
方差分析中的独立性假设
方差分析用于确定三个或更多独立组的平均值之间是否存在显着差异。
假设:方差分析假设每组中的观察值彼此独立,并且组内的观察值是通过随机样本获得的。
检验此假设:与 t 检验类似,检验此假设的最简单方法是验证每个观察值在每个样本中仅出现一次,并且每个样本中的观察值是通过随机抽样收集的。
假设回归的独立性
线性回归用于了解一个或多个预测变量与响应变量之间的关系。
假设:线性回归假设拟合模型的残差是独立的。
检验该假设:检验该假设的最简单方法是查看残差时间序列图,该图是残差与时间的关系图。理想情况下,大多数残差自相关应落在零附近的 95% 置信带内,这些置信带大约位于n的平方根上的 +/- 2 处,其中n是样本大小。您还可以使用Durbin-Watson 检验正式测试是否满足此假设。
不独立的常见根源
数据集中存在三种常见的非独立性来源:
1.观察时间及时集中在一起。
例如,研究人员可能会收集特定道路上汽车平均速度的数据。如果他选择在晚上跟踪速度,他可能会发现平均速度比他预期的要高得多,因为每个司机都在下班赶回家。
这些数据违反了每个观察都是独立的假设。由于每次观察都是在一天中的同一时间进行的,因此每辆车的速度可能相似。
2. 观察结果在空间上是紧密结合在一起的。
例如,研究人员可能会收集居住在同一高收入社区的人们的年收入数据,因为这很方便。
在这方面,数据样本中的所有人可能都有相似的收入,因为他们都住得很近。这违反了每个观察都是独立的假设。
3. 观察结果在同一数据集中出现多次。
例如,研究人员可能需要收集 50 个人的数据,但决定两次收集 25 个人的数据,因为这样更容易做到。
这违反了独立性假设,因为数据集中的每个观察值都与其自身相关。
如何避免违反独立性假设
避免违反独立性假设的最简单方法是在从总体中获取样本时简单地使用简单随机抽样。
使用这种方法,感兴趣群体中的每个个体都有平等的机会被纳入样本中。
例如,如果我们感兴趣的群体包含 10,000 个个体,我们可以为群体中的每个个体随机分配一个数字,然后使用随机数生成器选择 40 个随机数。与这些数字匹配的个人将被包含在样本中。
通过使用这种方法,我们可以最大限度地减少选择两个彼此非常接近或可能以某种方式相关的人的机会。
这与其他采样方法形成鲜明对比,例如:
- 便利抽样:包括样本中容易接触到的个人。
- 自愿抽样:将自愿参与的个人纳入样本。
通过使用随机抽样方法,我们可以最大限度地减少违反独立性假设的机会。