如何在 r 中使用 fread() 更快地导入文件


您可以使用 R 中data.table包的fread()函数快速轻松地导入文件。

该函数使用以下基本语法:

 library (data.table)

df <- fread(" C:\\Users\\Path\\To\\My\\data.csv ")

对于大文件,我们发现该函数比来自 R 库的read.csv等函数要快得多。

在大多数情况下,此函数还可以自动检测您要导入的数据集的分隔符和列类型。

下面的例子展示了如何在实际中使用这个功能。

示例:如何使用 feed() 将文件导入到 R 中

假设我有一个名为data.csv的 CSV 文件保存在以下位置:

C:\Users\Bob\Desktop\data.csv

并假设 CSV 文件包含以下数据:

 team, points, assists
'A', 78, 12
'B', 85, 20
'C', 93, 23
'D', 90, 8
'E', 91, 14

我可以使用data.table包的fread()函数将此文件导入到我当前的 R 环境中:

 library (data.table)

#import data
df <- fread("C:\Users\Bob\Desktop\data.csv")

#viewdata
df

  team points assists
1 A 78 12
2 B 85 20
3 C 93 23
4 D 90 8
5 E 91 14

我们能够使用fread()函数成功导入 CSV 文件。

注意:我们在文件路径中使用双反斜杠 (\\) 以避免常见的导入错误

请注意,我们也不需要指定分隔符,因为fread()函数自动检测到它是逗号。

如果我们使用str()函数显示数据框的结构,我们可以看到fread()函数也自动识别了每一列的对象类型:

 #view structure of data
str(df)

Classes 'data.table' and 'data.frame': 5 obs. of 3 variables:
 $ team: chr "'A'" "'B'" "'C'" "'D'" ...
 $points: int 78 85 93 90 91
 $assists: int 12 20 23 8 14

从结果我们可以看出:

  • 团队变量是一个角色。
  • 变量是一个整数。
  • 辅助变量是一个整数。

在这个例子中,为了简单起见,我们使用了一个小数据框(5行x 3列),但实际上fread()函数能够快速有效地导入包含数万行的数据块,使其成为首选的导入方法对于大规模数据集。

其他资源

以下教程解释了如何将特定文件类型导入到 R 中:

如何将Excel文件导入到R中
如何将 TSV 文件导入 R
如何将 Zip 文件导入到 R 中
如何将 SAS 文件导入 R
如何将 .dta 文件导入 R

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注