我正在尝试将大型 pdf 转换为文本。该文件大约 20 MB。无论我使用什么 python 库,CPU 都会飙升至 99% 或更多。我在 AWS 上部署了一款具有 1 vcpu / 8GB RAM 的应用程序,当我尝试从多个文件中并行提取文本时,服务器挂起。后端是一个 Flask 应用程序。
我尝试过 unstructuredio、pdfminer、pypdf2、pymupdf 等。
我该如何解决这个问题?
这是解决这个问题最经济有效的方法 使用 AWS Lambda 进行无服务器处理 将 PDF 处理任务卸载到 AWS Lambda 函数。 Lambda 可以自动扩展以并行处理多个文件,并且您无需管理任何服务器。
步骤:
注意事项:
Lambda 限制: AWS Lambda 的最长执行时间为 15 分钟,最大内存分配为 10,240 MB。确保您的 PDF 处理在这些限制内完成。 https://docs.aws.amazon.com/lambda/latest/dg/gettingstarted-limits.html 可扩展性:Lambda 可自动扩展,因此您可以并行处理多个 PDF,而不会影响您的 Flask/Django 应用程序。