使用视觉语言模型从图中提取数据

问题描述 投票:0回答:1
看一些想法以准确地从系统上下文图中提取数据流。我已经尝试了许多型号和迅速的工程技术,但是我仍然缺少流量,并且在不存在的流量上的模型幻觉,数据流不正确。

我尝试过的是:

提供视觉模型的工程(PHI-3-Vision-128k-Instruct,Llama-3.2-90B-Vision-Instruct)
  1. 将图表分为较小的部分
  2. 使用OCR然后将数据馈回视觉模型
  3. 图示例:

Example of diagram 您尝试过“ https://huggingface.co/microsoft/omniparser” - 演示看起来很正面。

文本框ID 0:交易 文本框ID 1:系统A 文本框ID 2:系统B 文本框ID 3 :( REST/API) 文本框ID 4:每日交易 文本框ID 5 :( feed/sftp) 文本框ID 6:客户 文本框ID 7 :( SQL/JDBC) 文本框ID 8:系统C
llama
1个回答
0
投票

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.