我已经花了相当长的时间进行文献综述和谷歌搜索,但我还没有找到合适的东西。
任务是实现一个灵活且可扩展的企业文档管理和分析系统。我想这代表了许多企业的典型用例。
完美的框架将允许本地操作(只有 Azure 是一个选项),并提供一个低代码平台,允许接收、标记和注册文档(PDF、Word 和 Excel 文件、其他文本文件)、索引和智能搜索在文档和文档集合内部和之间,以及使用 Python 实现 NLP 任务的接口。
此外,如果该框架还允许对有关文档及其嵌入的业务流程的元数据进行建模(例如,在触发进一步处理之前检查和验证一组必要文档的完整性),那将是有益的).
我考虑过将 Elastic Search 和像 Cassandra 这样的 NoSql 数据库结合起来,但这不符合低代码要求。
你可能会说我天真,但我认为应该有数万亿个这样的框架,因为这是业务自动化方面的典型用例。但我还没有找到合适的框架。希望有人能指点一下。
总结:
文档管理和分析框架具有:
查看空中客车公司正在使用的Haystack。它可以轻松地自托管并通过 YAML 文件进行自定义。它可以满足以下要求 -
以下要求目前无法实现 -
标记@julian-risch谁可以提供更多信息。
另请查看Cloud CMS。
它是一个企业内容平台,提供您正在寻找的许多内容,包括元数据、智能搜索、工作流程和生命周期管理和发布。它在 MongoDB 之上运行,并提供类似 SQL 的查询、GraphQL、基于分支的分叉/合并以及一些非常出色的驱动程序和框架支持,可以大大减少编码。
它具有很强的可扩展性,并提供规则引擎和服务器端脚本来连接业务逻辑,当内容经历其生命周期的各个阶段(创建、更新、合并、发布等)时,可以执行数据验证和完整性检查。
该产品还越来越多地提供可选的集成 AI 服务,用于自动管理、标记以及部署到矢量数据库和 LLM 平台(例如在 Amazon Bedrock 中运行的模型或知识库)。
您可以在自己的 Kubernetes 环境中自行运行它,也可以获取云订阅。您可以注册免费试用(在云端或本地)。
免责声明:我受雇于 Cloud CMS。我当然有偏见。然而,在查看时,您至少可能会得到一些有助于您搜索的想法。