我正在努力在HDF5表中实现相对较大的时间序列数据集(不断增长的5,000,000)。我需要一种每天删除一次重复运行的方法。就我目前的数据检索过程而言,在数据检索过程中将重复项写入要比确保没有重复项容易得多。
从pytable中删除公母的最佳方法是什么?我的所有读物都指向我将整个表导入pandas中,并获得唯一值的数据框,并通过在每次运行数据时重新创建表将其写回磁盘。不过,这似乎与pytables背道而驰,而且随着时间的推移,我不知道整个数据集是否可以有效地放入内存中。我应该补充一点,它是定义唯一记录的两列。
没有可复制的代码,但是谁能给我pytables数据管理建议?
非常感谢...
参见此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows
您为什么说这是“反击pytables”?完全可以存储重复项。用户对此负责。
您也可以尝试以下操作:merging two tables with millions of rows in python,在这里您使用的合并功能就是drop_duplicates()
。