如何在 r 中应用经验法则
经验法则(有时称为 68-95-99.7 规则)指出,对于具有正态分布的给定数据集:
- 68%的数据值在平均值的一个标准差之内。
- 95%的数据值在平均值的两个标准差之内。
- 99.7%的数据值落在平均值的三个标准差范围内。
在本教程中,我们将解释如何将 R 中的经验法则应用于给定的数据集。
在 R 中应用经验法则
R 中的pnorm()函数返回正态分布的累积密度函数的值。
该函数使用以下基本语法:
pnorm(q, 均值, 标准差)
金子:
- q :正态分布的随机变量值
- 平均值:平均分布
- sd :分布的标准差
我们可以使用以下语法来查找位于各种标准差之间的正态分布曲线下的面积:
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
从结果我们可以确认:
- 68%的数据值在平均值的一个标准差之内。
- 95%的数据值在平均值的两个标准差之内。
- 99.7%的数据值落在平均值的三个标准差范围内。
以下示例展示了如何在实践中将经验法则用于不同的数据集。
示例 1:将经验规则应用于 R 中的数据集
假设我们有一个均值为7 、标准差为2.2的正态分布数据集。
我们可以使用下面的代码来确定哪些值包含68%、95%和99.7%的数据:
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
从这个输出我们可以看到:
- 68% 的数据在4.8到9.2之间
- 95%的数据在2.6到11.4之间
- 99.7%的数据在0.4到13.6之间
示例 2:确定落在特定值之间的数据百分比
假设我们有一个均值为 100、标准差为 5 的正态分布数据集。
假设我们想知道在这个分布中,有多少数据落在值99和105之间。
我们可以使用pnorm( ) 函数来找到答案:
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
我们看到,对于该分布, 42.06%的数据落在值 99 和 105 之间。