如何比较直方图(附示例)


直方图是一种图表,它允许我们可视化一组数据中值的分布。

X轴显示数据集的值,Y轴显示每个值的频率。

直方图很有用,因为它们可以让我们快速了解数据集中值的分布。它们对于比较两个不同的数据集也很有用。

当比较两个或多个直方图时,我们可以回答三个不同的问题:

1. 中值如何比较?

我们可以粗略地估计中位数位于每个直方图的中间附近,从而使我们能够比较分布的中值。

2. 分散度比较如何?

我们可以直观地看到哪个直方图更分散,这让我们知道哪个分布具有更分散的值。

3. 不对称性如何比较?

如果直方图在图的左侧有“尾巴”,则称其为负偏斜。相反,如果直方图在图的右侧有“尾巴”,则称其为正偏态。我们可以直观地检查每个直方图来比较偏度

以下示例演示如何比较两个不同的直方图并回答这三个问题。

示例:比较直方图

假设 200 名学生使用一种学习方法准备考试,另外 200 名学生使用不同的学习方法准备同一考试。

假设我们创建以下直方图来比较每组学生的考试成绩:

我们可以比较这些直方图并回答以下三个问题:

1. 中值如何比较?

虽然我们仅通过查看直方图并不能知道每个分布的确切中位数,但很明显,使用方法 1 的学生的考试成绩中位数高于使用方法 1 的学生的考试成绩中位数。方法2。

我们可以估计方法 1 的中值约为 84,方法 2 的中值约为 78。

2. 分散度比较如何?

方法2的直方图值比方法1的直方图值分散得多,这告诉我们使用方法2的学生考试成绩的分散性要大得多。

3. 不对称性如何比较?

查看直方图,方法 1 的测试分数分布似乎稍微向右倾斜,如延伸到直方图右侧的“尾巴”所示。

然而,方法 2 的考试结果分布似乎没有“尾巴”,这告诉我们分布很小或没有偏斜。

额外奖励:这是我们在 R 中用于创建这两个直方图的代码:

 library (ggplot2)

#make this example reproducible
set. seeds (0)

#create data frame
df <- data. frame (method=rep(c(' Method 1 ', ' Method 2 '), each= 200 ),
                 Score=c(rnorm( 200 , mean= 84 , sd= 2 ),
                         rnorm( 200 , mean= 78 , sd= 4 )))

#create histogram of scores for each method
ggplot(df, aes(x=Score)) +
  geom_histogram(fill=' steelblue ', color=' black ') +
  facet_wrap(.~method, nrow= 2 ) +
  labs(title=' Exam Scores by Study Method ')

其他资源

以下教程解释了如何使用直方图执行其他常见任务:

如何估计任何直方图的平均值和中位数
如何估计任何直方图的标准差
如何描述直方图的形状

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注