斯特奇斯是什么？统治者？（定义&#038；示例）

经过本杰明·安德森博 7月 26, 2023 指导 0 条评论

直方图是一种帮助我们可视化一组数据中值的分布的图表。

事实证明，直方图中使用的方框数量会对我们解释数据的方式产生巨大影响。

如果我们使用的组太少，数据中真正的底层模式可能会被隐藏：

如果我们使用太多组，我们可以简单地可视化数据集中的噪声：

幸运的是，我们可以使用一种称为斯特吉斯规则的方法来确定直方图中使用的最佳框数。

斯特吉斯规则使用以下公式来确定直方图中使用的最佳组数：

最佳 bin = ⌈log ₂ n + 1⌉

金子：

假设我们有以下数据集，总共有 n = 31 个观测值：

我们可以使用斯特吉斯规则来确定用于在直方图中可视化这些值的最佳框数：

最佳 bin = ⌈log ₂ (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 。

根据 Sturges 规则，我们应该在直方图中使用 6 个箱来可视化该值的分布。

对于该数据集，包含 6 个组的直方图如下所示：

使用斯特吉斯规则确定直方图中使用的框数

请注意，这似乎足以很好地了解值的基本分布，而不会因为数量太多而无法简单地可视化数据中的噪声。

下表显示了根据斯特吉斯规则，基于数据集中的观测总数的直方图中使用的最佳组数：

不同样本量的斯特吉斯规则

斯特吉斯规则是确定直方图中使用的最佳箱数的最常用方法，但还有多种替代方法，包括：

平方根规则：盒子数量 = ⌈√ n ⌉

大米规则：箱数 = ⌈2 * ³ √ n ⌉

Freedman-Diaconis 规则：框数 = (2*IQR) / ³ √ n其中IQR是四分位数范围。

使用此免费在线计算器自动应用斯特吉斯规则，根据数据集的大小确定用于直方图的最佳组数。

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多