对我的项目中的设计有疑问。 我刚刚开始进行自动化工作,其中使用 vba 宏将包含 10 页的输入 excel 文件转换为一组新的 15 页输出文件。目前,输入和输出文件驻留在远程服务器中。 该计划的一部分是将输入文件移动到 Google 云存储、转换并将输出文件放置在 GCS 中的另一个文件夹中。 Excel 文件可以有 40 万到 200 万条记录。 在这种情况下,Pandas 数据框是否更容易实现,或者我应该使用 openpyxl。 pandas 性能会下降吗?
我正处于设计阶段并正在做 PoC。
您可以检查一下挖掘机是否适合您。它可以从单个单元格、行模式或列中提取值。它是用 Rust 编写的,所以如果你让它工作的话,速度会非常快。 https://pypi.org/project/sheet-excavator/