如何将图像上传作为文本生成模型（例如DeepSeek-r1）的输入？我正在使用文本生成模型（DeepSeek-R1），并注意到某些平台允许与文本提示一起上传图像。例如，在以前的互动中，我引用了r ...

Question

正确描述的是，DeepSeek R1没有图像到文本功能。但是，如果您严格想在应用程序工作流程中的输出端处使用DeepSeek R1，则可能需要引入一层来为您处理图像到文本，然后再将控件传递给DeepSeek.

一种选项是通过使用Google Cloud Vision API来使用简单的基于深度学习的方法来为您完成图像对文本：

将其淘汰！

。但是，这输出了一些基本标签来描述图像。

如果您想在图像到文本转换方面具有一些智能，则可以尝试介绍其他型号，例如

qwen2.5-vl-72b-instruct

或任何其他型号（公开可用/您很舒服地使用））在您的工作流程中）。

Answer 1

0
投票

据我所知，这是行业遵循的标准方式。

如何将图像上传作为文本生成模型（例如DeepSeek-r1）的输入？ 我正在使用文本生成模型（DeepSeek-R1），并注意到某些平台允许与文本提示一起上传图像。例如，在以前的互动中，我引用了r ...