如何为大规模数据的并行但顺序处理分发python脚本?

问题描述 投票:0回答:1

这是我们必须解决的方案:

  • 从服务器中提取所有PDF文件。
  • 将PDF转换为PNG
  • 在PNG上进行一些挖掘并生成TXT
  • 解析TXT以生成CSV
  • CSV去了

我为上述每个任务编写了一个python函数,总共有5个函数,第一个函数的输出作为第二个函数的输入,所以我们不能并行运行上述所有函数。一个任务需要在另一个任务运行之前完成。

有多个文件夹可以保存PDF,这必须手动输入,因此目前我们手动运行多个代码实例,并指定要执行的文件夹,新文件夹随时间继续上传。

处理一个文件夹大约需要一个小时,有人可能会建议一个架构和工具来加速整个过程并最大限度地减少手动操作。您可以建议我们可以考虑使用的工具/库。

谢谢。

python multithreading architecture bigdata
1个回答
0
投票

我会用像apache-airflow这样的东西

您将流程定义为直接非循环图。

Apache airflow将为您管理任务依赖性和并行化。

请注意,不会将数据从一个任务发送到另一个任务。如果你需要任务 - 通信,你需要自己定义如何做(使用数据库,文件......)

© www.soinside.com 2019 - 2024. All rights reserved.