长数据或宽数据:有什么区别?
数据集可以用两种不同的格式编写: Wide和Long 。
宽格式包含在第一列中不重复的值。
长格式包含在第一列中重复的值。
例如,考虑以下两个数据集,它们包含以不同格式表示的完全相同的数据:
请注意,在扩展数据集中,第一列中的每个值都是唯一的。
相反,在长数据集中,第一列中的值会重复。
两个数据集都包含完全相同的团队信息,但只是以不同的格式表示。
何时使用宽数据或长数据
根据您想要对数据执行的操作,以宽格式或长格式呈现数据可能更有意义。
何时使用大幅面
一般来说,如果您正在分析数据,通常会使用宽数据格式。
例如,如果您想了解球队的平均得分、助攻和篮板数,通常更容易获得大格式的数据:
您在现实世界中遇到的大多数数据集也将以宽格式保存,因为我们的大脑更容易解释。
例如,在上面的格式中,很容易读取同一行上每个球队的得分、助攻和篮板值。
何时使用长格式
通常,如果您使用R等统计软件查看图中的多个变量,通常需要将数据转换为长格式,以便软件可以创建绘图。
对于实际示例,请查看这些 R 教程,其中数据必须采用长格式才能创建某些类型的绘图:
有时,如果您也使用Python ,则可能需要将数据重新调整为不同的格式。
以下教程解释了如何在 Python 中重塑数据框:
其他资源
以下教程提供了有关其他常用统计术语的信息: