我正在处理一个生成大量数据的项目,每个月都有一个进程写入一个包含超过 600 万条记录的 csv 文件,然后转换为 Feather 文件。 需要验证feather文件的记录数,并将其与相应的csv文件进行比较。
我已经搜索过,但没有找到一个命令行工具来读取feather文件的元数据,以便了解它的行数和列数。
我最接近的解决方案是在 Python + Pandas 中创建一个脚本,将文件作为 Pandas Dataframe 读取并执行
df.shape
但是我的羽毛文件大约有 6-1000 万条记录,将羽毛文件加载到数据帧中非常耗时,而且我要测试它的机器没有太多内存或处理能力。
import pandas as pd
filename = "jan_records.feather"
df = pd.read_feather(filename)
df.shape
我很感谢对此的任何帮助。
做类似的事情:
import pyarrow
filename = "jan_records.feather"
total_rows = 0
with pyarrow.ipc.open_file(filename) as reader:
for batchi in range(reader.num_record_batches):
total_rows += reader.get_batch(batchi).num_rows