是否有命令行工具可以读取feather文件的行数和列数？

Question

我正在处理一个生成大量数据的项目，每个月都有一个进程写入一个包含超过 600 万条记录的 csv 文件，然后转换为 Feather 文件。需要验证feather文件的记录数，并将其与相应的csv文件进行比较。

我已经搜索过，但没有找到一个命令行工具来读取feather文件的元数据，以便了解它的行数和列数。

我最接近的解决方案是在 Python + Pandas 中创建一个脚本，将文件作为 Pandas Dataframe 读取并执行

df.shape

但是我的羽毛文件大约有 6-1000 万条记录，将羽毛文件加载到数据帧中非常耗时，而且我要测试它的机器没有太多内存或处理能力。

import pandas as pd

filename = "jan_records.feather"
df = pd.read_feather(filename)
df.shape

我很感谢对此的任何帮助。

Answer 1

做类似的事情：

import pyarrow

filename = "jan_records.feather"
total_rows = 0
with pyarrow.ipc.open_file(filename) as reader:
    for batchi in range(reader.num_record_batches):
        total_rows += reader.get_batch(batchi).num_rows

是否有命令行工具可以读取feather文件的行数和列数？

问题描述投票：0回答：1

1个回答

最新问题

是否有命令行工具可以读取feather文件的行数和列数？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1