分组数据
本文解释什么是分组数据以及数据如何分组。此外,您还会发现一个已解决的练习,其中数据按时间间隔分组。
什么是分组数据?
在统计学中,分箱数据是按区间分组的数据。换句话说,分组数据是定期收集的数据,以便可以将它们一起研究。
所以,在对一组统计数据进行分组时,将其分成不同的区间,使得每条数据只能属于一个区间。
简而言之,在统计学中,数据聚类允许对多个数据进行联合分析,从而将在一个区间内分组的数据视为单个数据。此外,当样本非常大时,数据池非常有用。
分组数据示例
查看分组数据的定义,下面是如何将一组数据分组为不同区间的具体示例。
- 测量了50个不同人的样本量,所有值都记录在下面的数据表中。将数据集分组为区间,然后绘制数据图表。
首先,我们需要将数据分成区间。有很多方法可以实现这一点,但斯特奇斯规则是最常用的,因为它允许您计算理想的间隔数:
所以我们需要将数据分成七个不同的区间。我们现在需要知道每个间隔必须具有的宽度。为此,只需将最大值减去最小值除以间隔总数即可:
总之,必须有7个幅度为9的区间,因此根据Sturges规则计算出的区间如下:
一旦我们计算了间隔,我们就计算一条数据在每个间隔中出现的次数,并用分组的数据构建一个表:
请记住,可以根据分组数据计算更多频率类型(相对频率、累积频率等)。要了解如何使用分组数据创建完整的频率表,请单击此处:
最后,从每个间隔的频率表中,我们可以将数据分组为直方图。
分组和未分组数据
未分组数据是未分成区间的数据,但每个值都是单独研究的。
按照上面的例子,如果我们没有对数据进行分组,我们就必须找到每个值的频率。也就是说,我们应该计算出值 158、165、174 等的多少次。被重复。但是,在这种情况下,最好按间隔对数据进行分组,因为我们有大量数据,而且许多值相似。
因此,在统计研究过程中,在进行计算之前,决定是否应按区间对数据进行分组非常重要,因为这将为其余的调查奠定基础。
什么时候应该整合数据?
一般来说,当变量连续时,数据应分组为区间。如果变量是连续的,我们通常有很多值,并且它们彼此非常接近,因此可以将它们分组为区间以简化研究。
从逻辑上讲,即使变量不连续,如果我们有很多数据,也可以将其分组为区间,使统计分析更加容易。但通常对数据进行分组的标准是变量的类型:如果变量是连续的,则数据通常分为区间。