如何在 r 中使用 fread() 更快地导入文件
您可以使用 R 中data.table包的fread()函数快速轻松地导入文件。
该函数使用以下基本语法:
library (data.table) df <- fread(" C:\\Users\\Path\\To\\My\\data.csv ")
对于大文件,我们发现该函数比来自 R 库的read.csv等函数要快得多。
在大多数情况下,此函数还可以自动检测您要导入的数据集的分隔符和列类型。
下面的例子展示了如何在实际中使用这个功能。
示例:如何使用 feed() 将文件导入到 R 中
假设我有一个名为data.csv的 CSV 文件保存在以下位置:
C:\Users\Bob\Desktop\data.csv
并假设 CSV 文件包含以下数据:
team, points, assists 'A', 78, 12 'B', 85, 20 'C', 93, 23 'D', 90, 8 'E', 91, 14
我可以使用data.table包的fread()函数将此文件导入到我当前的 R 环境中:
library (data.table) #import data df <- fread("C:\Users\Bob\Desktop\data.csv") #viewdata df team points assists 1 A 78 12 2 B 85 20 3 C 93 23 4 D 90 8 5 E 91 14
我们能够使用fread()函数成功导入 CSV 文件。
注意:我们在文件路径中使用双反斜杠 (\\) 以避免常见的导入错误。
请注意,我们也不需要指定分隔符,因为fread()函数自动检测到它是逗号。
如果我们使用str()函数显示数据框的结构,我们可以看到fread()函数也自动识别了每一列的对象类型:
#view structure of data
str(df)
Classes 'data.table' and 'data.frame': 5 obs. of 3 variables:
$ team: chr "'A'" "'B'" "'C'" "'D'" ...
$points: int 78 85 93 90 91
$assists: int 12 20 23 8 14
从结果我们可以看出:
- 团队变量是一个角色。
- 点变量是一个整数。
- 辅助变量是一个整数。
在这个例子中,为了简单起见,我们使用了一个小数据框(5行x 3列),但实际上fread()函数能够快速有效地导入包含数万行的数据块,使其成为首选的导入方法对于大规模数据集。
其他资源
以下教程解释了如何将特定文件类型导入到 R 中:
如何将Excel文件导入到R中
如何将 TSV 文件导入 R
如何将 Zip 文件导入到 R 中
如何将 SAS 文件导入 R
如何将 .dta 文件导入 R