我在 azure 上使用命令 R+ 模型。我知道 Command R+ 支持 128K 的上下文长度。现在我想知道命令 R+ 的输出响应的最大令牌限制。
所以我可以相应地传递 max_tokens 限制值。
Azure 上的 Cohere Command R+ 模型支持最多 128,000 个令牌的上下文长度。为了生成响应,可以生成的最大令牌数量也受此总体上下文限制的控制。
响应的具体输出令牌限制没有明确限制为固定数量,但通常由您在请求中设置的
max_tokens
参数确定。此参数指示您希望模型在响应中生成多少个标记。给定 128,000 个标记的上下文长度,您可以在考虑输入提示的长度的同时为输出分配其中的一部分。
出于实用目的,并确保有效使用,通常将
max_tokens
参数设置为一个值,以确保输入和输出一起不超过上下文总长度。例如,如果您的输入提示预计使用 1,000 个令牌,您可以将 max_tokens
设置为 127,000 个令牌,但在实际应用程序中,更典型的做法可能是将其设置为单个响应 2,000 到 4,000 个令牌有效管理绩效和响应时间。
您可以在 API 调用中设置它:
import cohere
co = cohere.Client('your-api-key')
response = co.generate(
model='command-r-plus',
prompt='Your prompt text goes here',
max_tokens=2000, # Adjust this value based on your needs and the model's limits
temperature=0.5
)
print('Generated text:', response.generations[0].text)
确保根据应用程序的要求和手头任务的复杂性监控和调整
max_tokens
设置。
参考资料: