为什么范围在统计中很重要?
在统计学中,极差表示一组数据中最小值和最大值之间的差异。
例如,假设我们有以下数据集:
数据集:3、4、11、15、19、19、19、22、22、23、23、26
我们可以使用以下公式来计算范围:
- 范围 = 最大值 – 最小值
- 范围 = 26 – 3
- 范围 = 23
范围是23 。这表示数据集中最小值和最大值之间的差异。
在统计学中,范围很重要,原因如下:
原因1 :这告诉我们整个数据集的分布。
原因2 :它告诉我们在给定的数据集中可能存在哪些极值。
以下示例在实践中说明了这些原因。
原因 1:范围告诉我们整个数据集的分布
该范围告诉我们整个数据集的分布。
例如,假设我们有以下数据集,显示一个班级 20 名不同学生的考试成绩:
考试成绩范围计算如下:
- 范围 = 最大值 – 最小值
- 范围 = 98 – 68
- 范围 = 30
结果范围是30 。这代表了考试最高成绩和班级最低成绩之间的差异。
准确地了解这一测量结果,任课教师可以快速了解所有学生的考试成绩值的分布情况。
原因2:极差告诉我们在给定的数据集中哪些极值是可能的
极差告诉我们在给定的数据集中哪些极值是可能的。
例如,假设房地产经纪人可以访问包含美国某个城市 100,000 套房屋销售价格的数据库:
假设我们使用统计软件(如Excel 、 R 、 Python等)来计算该数据集的范围并发现以下内容:
- 范围=最大值-最小值
- 范围 = 854,000 – 194,000
- 范围 = 660,000
如果房地产经纪人的客户的购买预算低于 194,000 美元或超过 854,000 美元,房地产经纪人可以立即知道该特定城市没有房屋符合购买标准。
使用海滩的背后
该范围有一个缺点:它受到异常值的影响。
为了说明这一点,请考虑以下数据集:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
该数据集的范围是 32 – 1 = 31 。
但是,请考虑数据集是否存在极端异常值:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378
该数据集的范围现在为 378 – 1 = 377 。
请注意范围如何因异常值而发生巨大变化。
在计算数据集的范围之前,最好首先检查是否存在任何可能使范围产生误导的异常值。
其他资源
以下教程解释了统计中其他度量的重要性: