首先,我想快速讲一些背景。我最终想要实现的是在张量流框架下训练一个完全连接的神经网络来解决多类分类问题。
问题的挑战是训练数据的规模巨大(〜2 TB)。为了使训练在有限的内存下工作,我想将训练集保存到小文件中,并使用小批量梯度下降算法来训练模型。 (每次只将一个或几个文件加载到内存中。)>
现在说,我已经有两个带有处理过的数据的数据帧,一个带有X_train(700万个条目* 200个具有列名的特征),另一个带有training_y(700万个条目* 1个标签)。 如何将其有效地保存到TFrecord文件中,保持列名,行索引等,并且我可能希望每个文件包含100,000个条目?
我知道TFrecord下的所有内容都可以利用其中的一些在tensorflow中实现了整洁的改组和批处理功能。我可能需要一种非常有效的方式来写入此类记录,因为稍后需要将2TB的数据写入此文件格式。我曾尝试在Google上搜索“如何将大熊猫数据帧写入TFRecords”,但在好的示例方面并没有取得任何成功。大多数示例要求我逐列,逐行创建tf.train.Example
,并使用tf.python_io.TFRecordWriter
写入tfrecord文件。只想确认这是我在这里能得到的最好的结果。
如果您对我要解决的问题有其他建议,也将不胜感激!
首先,我想快速讲一些背景。我最终想要实现的是在张量流框架下训练一个完全连接的神经网络来解决多类分类问题。 ...