长数据或宽数据:有什么区别?


数据集可以用两种不同的格式编写: WideLong

格式包含在第一列中重复的值。

格式包含在第一列中重复的值。

例如,考虑以下两个数据集,它们包含以不同格式表示的完全相同的数据:

宽或长数据格式

请注意,在扩展数据集中,第一列中的每个值都是唯一的。

相反,在数据集中,第一列中的值会重复。

两个数据集都包含完全相同的团队信息,但只是以不同的格式表示。

何时使用宽数据或长数据

根据您想要对数据执行的操作,以宽格式或长格式呈现数据可能更有意义。

何时使用大幅面

一般来说,如果您正在分析数据,通常会使用数据格式。

例如,如果您想了解球队的平均得分、助攻和篮板数,通常更容易获得大格式的数据:

您在现实世界中遇到的大多数数据集也将以宽格式保存,因为我们的大脑更容易解释。

例如,在上面的格式中,很容易读取同一行上每个球队的得分、助攻和篮板值。

何时使用长格式

通常,如果您使用R等统计软件查看图中的多个变量,通常需要将数据转换为格式,以便软件可以创建绘图。

对于实际示例,请查看这些 R 教程,其中数据必须采用格式才能创建某些类型的绘图:

有时,如果您也使用Python ,则可能需要将数据重新调整为不同的格式。

以下教程解释了如何在 Python 中重塑数据框:

其他资源

以下教程提供了有关其他常用统计术语的信息:

统计学中的观察是什么?
统计学中什么是协变量?
统计中的残差是什么?

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注