点图和直方图:有什么区别?
点图和直方图是两种常用的可视化数据集中值分布的图。
点图沿 x 轴显示各个数据值,并使用点表示每个单独值的频率。
直方图沿 x 轴显示数据范围,并使用矩形条表示属于每个范围的值的频率。
以下示例演示如何为同一数据集创建点图和直方图。
示例:为同一数据集创建点图和直方图
假设我们有以下包含 18 个值的数据集:
数据: 1、1、1、1、2、2、2、3、4、5、5、6、6、6、6、7、8、10
该数据集的点图如下所示:
x 轴显示各个数据值,y 轴显示每个值的频率。
例如,我们可以看到值“2”在数据集中出现了三次,因为它上面有三个点。同样,我们可以看到值“3”只出现一次,因为它上面只有一个点。
该数据集的直方图如下所示:
整洁。
例如,我们可以看到有七个值在0和2之间,两个值在2和4之间,依此类推。
额外奖励:对于那些好奇的人,我们使用以下 R 代码来创建上面所示的点图和直方图:
#define dataset data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10) #create dot plot stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5, col = "steelblue", main = "Dot Plot", xlab = "Data Values", ylab="Frequency") #create histogram hist(data, col='steelblue', main='Histogram', xlab='Data Values')
点图或直方图:您应该使用哪一个?
如前所述,点图和直方图可用于可视化数据集中值的分布。
根据经验,当数据集较小时,我们通常使用点图,因为它可以让我们准确地看到每个值出现的次数。
相反,当数据集很大时,我们通常使用直方图,因为创建一个点来表示大数据集中的每个单独值是很乏味的。
请记住,使用直方图的唯一缺点是我们无法准确判断每个值出现的次数。
例如,在前面的直方图中我们看到有七个值在0和2之间,但是我们不知道到底有多少个值是1,有多少个值是2。
如果我们只是想了解分布的一般“形状”,那么如果我们不知道数据集的各个值通常并不重要。
另请记住,我们无法仅通过查看直方图来计算准确的中位数或平均值,因为我们不知道各个值。
其他资源
以下教程提供有关直方图的其他信息:
如何估计平均值和中位数直方图
如何描述直方图的形状
如何在 R 中创建直方图
如何用 Python 创建直方图
以下教程提供有关点图的其他信息: