我正在将一个大数据集加载到 R 中(大约 40GB),我想知道在加载数据时是否可以将 setDT() 包裹在数据周围。例如,我想知道使用 (A) 或(B),以及其中一个或另一个更有效。预先感谢!
(A) dt = setDT(dbGetQuery(conn, "SELECT * FROM data"))
(B) dt = dbGetQuery(conn, "SELECT * FROM data)
setDT(dt)
两者都具有内存效率,但 B 的可读性和清晰度要好得多,尤其是在处理长数据时。 这个方法告诉你,加载是第一步,转换是最后一步,得到一个data.table,这也是可维护性的一个好处。