看一些想法以准确地从系统上下文图中提取数据流。我已经尝试了许多型号和迅速的工程技术,但是我仍然缺少流量,并且在不存在的流量上的模型幻觉,数据流不正确。
我尝试过的是:
提供视觉模型的工程(PHI-3-Vision-128k-Instruct,Llama-3.2-90B-Vision-Instruct)
- 将图表分为较小的部分
- 使用OCR然后将数据馈回视觉模型
-
图示例:
您尝试过“ https://huggingface.co/microsoft/omniparser” - 演示看起来很正面。
文本框ID 0:交易
文本框ID 1:系统A
文本框ID 2:系统B
文本框ID 3 :( REST/API)
文本框ID 4:每日交易
文本框ID 5 :( feed/sftp)
文本框ID 6:客户
文本框ID 7 :( SQL/JDBC)
文本框ID 8:系统C