使用视觉语言模型从图中提取数据

问题描述投票：0回答：1

看一些想法以准确地从系统上下文图中提取数据流。我已经尝试了许多型号和迅速的工程技术，但是我仍然缺少流量，并且在不存在的流量上的模型幻觉，数据流不正确。

我尝试过的是：

提供视觉模型的工程（PHI-3-Vision-128k-Instruct，Llama-3.2-90B-Vision-Instruct）

您尝试过“ https://huggingface.co/microsoft/omniparser” - 演示看起来很正面。

文本框ID 0：交易文本框ID 1：系统A 文本框ID 2：系统B 文本框ID 3 ：（ REST/API）文本框ID 4：每日交易文本框ID 5 ：（ feed/sftp）文本框ID 6：客户文本框ID 7 ：（ SQL/JDBC）文本框ID 8：系统C

llama

1个回答

0
投票