是否有命令行工具可以读取feather文件的行数和列数?

问题描述 投票:0回答:1

我正在处理一个生成大量数据的项目,每个月都有一个进程写入一个包含超过 600 万条记录的 csv 文件,然后转换为 Feather 文件。 需要验证feather文件的记录数,并将其与相应的csv文件进行比较。

我已经搜索过,但没有找到一个命令行工具来读取feather文件的元数据,以便了解它的行数和列数。

我最接近的解决方案是在 Python + Pandas 中创建一个脚本,将文件作为 Pandas Dataframe 读取并执行

df.shape

但是我的羽毛文件大约有 6-1000 万条记录,将羽毛文件加载到数据帧中非常耗时,而且我要测试它的机器没有太多内存或处理能力。

import pandas as pd

filename = "jan_records.feather"
df = pd.read_feather(filename)
df.shape

我很感谢对此的任何帮助。

python pandas command-line-interface feather
1个回答
0
投票

做类似的事情:

import pyarrow

filename = "jan_records.feather"
total_rows = 0
with pyarrow.ipc.open_file(filename) as reader:
    for batchi in range(reader.num_record_batches):
        total_rows += reader.get_batch(batchi).num_rows
© www.soinside.com 2019 - 2024. All rights reserved.