我有一个以csv格式保存的〜30GB(〜1.7 GB压缩| 180K行x 32K列)矩阵。我想将此矩阵转换为稀疏格式,以便能够将完整的数据集加载到内存中,以便使用sklearn进行机器学习。填充的单元格包含小于1的浮点数。大矩阵的警告是目标变量存储为最后一列。允许在sklearn中使用这种大矩阵的最佳方法是什么?即如何在不将原始矩阵加载到内存的情况下将〜30GB的csv转换为稀疏格式?
伪代码
我有一个以csv格式保存的〜30GB(〜1.7 GB压缩| 180K行x 32K列)矩阵。我想将此矩阵转换为稀疏格式,以便能够将完整的数据集加载到内存中,以用于...
这将按行将csv / tsv转换为mtx文件(这只是COO样式的平面文件)。