我在文档智能工作室(以前称为表单识别器)中构建了一个组合模型。它旨在从具有不同模式的不同类型文档中提取不同字段。
当组合模型输入训练它的文档类型时,没有问题。但是,当我提供具有未知模式的新文档(未使用此模式进行训练)时,它仍然会提取字段,而且我什至无法对提取字段的置信度分数应用过滤器,因为对于某些提取的字段,置信度分数更高超过 90%。
我也尝试应用分类模型,但即使这样也不起作用。
因此,当未知文档类型输入模型时,我需要帮助以了解如何获得响应或处理这种情况。
谢谢您的回复。我想出了一个解决方案。我正在使用组合模型,因此它返回响应中文档内的 docType。
"documents": [
{
"docType": "model-composed-1:model-doc1-en-1"
}
..... ]
当通过此模型类型“model-doc1-en-1”提取文档时,我期待一些仅特定于该特定文档类型的内容。因此,当我上传未知文档时,内容将被提取,但该特定文档中的预期内容将不会出现,并且将被过滤。