Python：PDF 转文本消耗太多 CPU

Question

我正在尝试将大型 pdf 转换为文本。该文件大约 20 MB。无论我使用什么 python 库，CPU 都会飙升至 99% 或更多。我在 AWS 上部署了一款具有 1 vcpu / 8GB RAM 的应用程序，当我尝试从多个文件中并行提取文本时，服务器挂起。后端是一个 Flask 应用程序。

我尝试过 unstructuredio、pdfminer、pypdf2、pymupdf 等。

我该如何解决这个问题？

Answer 1

这是解决这个问题最经济有效的方法 使用 AWS Lambda 进行无服务器处理将 PDF 处理任务卸载到 AWS Lambda 函数。 Lambda 可以自动扩展以并行处理多个文件，并且您无需管理任何服务器。

步骤：

将 PDF 上传到 S3： 当用户通过 Flask/Django 应用程序上传 PDF 时，将其存储在 Amazon S3 存储桶中。
触发 Lambda 函数： 设置 S3 事件触发器，以便当上传新 PDF 时，它会触发 Lambda 函数。
在 Lambda 中处理 PDF： Lambda 函数提取 PDF 中的文本并将结果存储回 S3 或 DynamoDB 等数据库中。
通知您的申请：处理完成后，更新数据库中的状态或向您的 Flask/Django 应用程序发送通知。

注意事项：

Lambda 限制： AWS Lambda 的最长执行时间为 15 分钟，最大内存分配为 10,240 MB。确保您的 PDF 处理在这些限制内完成。 https://docs.aws.amazon.com/lambda/latest/dg/gettingstarted-limits.html 可扩展性：Lambda 可自动扩展，因此您可以并行处理多个 PDF，而不会影响您的 Flask/Django 应用程序。

Python：PDF 转文本消耗太多 CPU

问题描述投票：0回答：1

1个回答

最新问题

Python：PDF 转文本消耗太多 CPU

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1