如何将图像上传作为文本生成模型(例如DeepSeek-r1)的输入? 我正在使用文本生成模型(DeepSeek-R1),并注意到某些平台允许与文本提示一起上传图像。例如,在以前的互动中,我引用了r ...

问题描述 投票:0回答:1

正确描述的是,DeepSeek R1没有图像到文本功能。但是,如果您严格想在应用程序工作流程中的输出端处使用DeepSeek R1,则可能需要引入一层来为您处理图像到文本,然后再将控件传递给DeepSeek.

一种选项是通过使用Google Cloud Vision API来使用简单的基于深度学习的方法来为您完成图像对文本:

将其淘汰!

。但是,这输出了一些基本标签来描述图像。

如果您想在图像到文本转换方面具有一些智能,则可以尝试介绍其他型号,例如

qwen2.5-vl-72b-instruct

或任何其他型号(公开可用/您很舒服地使用) )在您的工作流程中)。
machine-learning deep-learning neural-network artificial-intelligence large-language-model
1个回答
0
投票

据我所知,这是行业遵循的标准方式。

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.