统计学中的正态性假设是什么?
许多统计检验依赖于所谓的正态性假设。
该假设指出,如果我们从总体中收集许多独立的随机样本并计算感兴趣的值(例如样本均值),然后创建直方图来可视化样本均值的分布,我们应该观察到完美的钟形曲线。
许多统计技术对数据做出这种假设,包括:
1、单样本t检验:假设样本数据服从正态分布。
2.双样本t检验:假设两个样本呈正态分布。
3.方差分析:假设模型残差呈正态分布。
4.线性回归:假设模型残差呈正态分布。
如果不满足这个假设,这些测试的结果就会变得不可靠,我们就无法自信地将我们从数据样本中得出的结论推广到总体。这就是为什么检查这个假设是否成立很重要。
有两种常见方法可以检查是否满足正态性假设:
1. 想象常态
2. 进行正式的统计测试
以下部分介绍了您可以创建的特定图表以及可以执行以检查正态性的特定统计测试。
可视化常态
检查数据集是否呈正态分布的一种快速且非正式的方法是创建直方图或 QQ 图。
1. 直方图
如果数据集的直方图大致呈钟形,则该数据很可能呈正态分布。
2.QQ乐园
QQ 图是“分位数-分位数”的缩写,是一种沿 x 轴显示理论分位数(即数据服从正态分布时的位置)和沿 y 轴显示样本分位数的图。 (即您的数据实际所在的位置)。
如果数据值遵循形成 45 度角的大致直线,则假定数据呈正态分布。
进行正式的统计测试
您还可以执行正式的统计测试来确定数据集是否呈正态分布。
如果检验的p 值低于一定的显着性水平(例如 α = 0.05),则您有足够的证据表明数据不呈正态分布。
常用来检验正态性的统计检验有以下三种:
1. 雅克-贝拉测试
2. 夏皮罗-威尔克检验
3. 柯尔莫哥洛夫-斯米尔诺夫检验
- 如何在 Excel 中执行 Kolmogorov-Smirnov 检验
- 如何在 R 中执行 Kolmogorov-Smirnov 检验
- 如何在 Python 中执行 Kolmogorov-Smirnov 检验
如果违反正态性假设该怎么办
如果发现您的数据不是正态分布,您有两种选择:
1. 转换数据。
一种选择是简单地转换数据以使其更加正态分布。常见的转换包括:
- 对数转换:将数据从 y 转换为log(y) 。
- 平方根变换:将数据从 y 变换为√y
- 立方根变换:将数据从 y 变换为y 1/3
- Box-Cox 变换:使用Box-Cox 过程转换数据
通过执行这些变换,数据值的分布通常变得更加正态分布。
2. 执行非参数检验
假设正态性的统计检验称为参数检验。但还有一系列所谓的非参数检验并不做出这种正态性假设。
如果结果表明您的数据不呈正态分布,您可以简单地执行非参数检验。以下是常见统计检验的一些非参数版本:
参数测试 | 非参数等价 |
---|---|
样本 t 检验 | Wilcoxon 签名秩检验示例 |
两样本 t 检验 | 曼-惠特尼 U 检验 |
配对样本 t 检验 | Wilcoxon 签名秩检验的两个样本 |
单因素方差分析 | 克鲁斯卡尔-沃利斯检验 |
这些非参数检验中的每一个都使得可以在不满足正态性假设的情况下进行统计检验。