如何批量处理超过Google Document AI页面限制的长文档?

问题描述 投票:0回答:1

我正在使用 Google Document AI 来处理长文档,其中页数超出了处理器限制(约 10k 页)。虽然我在 Document AI 工具箱中找到了一种 方法可以为包含超过处理器限制的文件的 GCS 目录创建批次,但它无法解决页面过多的单个文件。

此外,我在 ProcessOptions

 中发现了一个  参数,用于在在线处理时发送页面范围。但是,该参数似乎不适用于批处理。当我尝试使用Python SDK访问它时,遇到错误:

AttributeError: module 'google.cloud.documentai' has no attribute 'IndividualPageSelector'

我知道我可以通过手动分解文件然后组合输出来解决页面限制,但我正在寻找一种解决方案来避免这种额外的预处理和后处理。

是否有一种直接的方法可以批量处理超出处理器页面限制的长文档,而无需手动拆分和重新组合它们?谢谢!

python google-cloud-platform google-cloud-sdk cloud-document-ai
1个回答
0
投票

根据当前的 gcp 文档 [活动处理中的页面数(仅限 v1beta2)] (https://cloud.google.com/document-ai/quotas#quotas_list) - 每个项目 10,000 个(默认值)。 这就是为什么您会收到

number of pages exceeds the processor limit
(~10k 页)错误。对于每个处理器的批处理请求 - 每个项目的默认值 5。

批处理允许每个请求最多 1,000 个文件。如果您要处理的单据较多,则必须将单据分成多批进行处理。 在您的情况下,您不想破坏这些文件或将较大的文档分割成较小的部分,因此您可以通过控制台请求增加配额,或者您可以联系云支持团队以增加您的配额限制。这是在公共问题跟踪器中提交的功能请求,您可以通过单击 +1 和 STAR 标记来投票支持此功能以接收更新。

© www.soinside.com 2019 - 2024. All rights reserved.