我正在尝试在 Google Vertex AI 中测试 Anthropic Claude 模型,但出现 429 错误。我无法通过一个请求,所以我认为问题至少不是过度使用。
这是预期的还是我应该至少能够提出一些请求?
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://europe-west1-aiplatform.googleapis.com/v1/projects/$PROJECT_ID/locations/europe-west1/publishers/anthropic/models/claude-3-5-sonnet@20240620:streamRawPredict"
出现此错误:
[{
"error": {
"code": 429,
"message": "Quota exceeded for aiplatform.googleapis.com/online_prediction_requests_per_base_model with base model: anthropic-claude-3-5-sonnet. Please submit a quota increase request. https://cloud.google.com/vertex-ai/docs/generative-ai/quotas-genai.",
"status": "RESOURCE_EXHAUSTED"
}
}
]%
我一直在遵循本指南:https://cloud.google.com/vertex-ai/generative-ai/docs/partner-models/use-claude
对于 Claude 型号,配额适用于该型号可用的每个区域。配额以每分钟查询数 (QPM) 和每分钟令牌数 (TPM) 指定。 TPM 包括输入和输出令牌。
Claude 3.5 Sonnet v2 的默认配额限制和支持的上下文长度如下图所示:
如果您想增加 Vertex AI 上的生成 AI 的任何配额,您可以使用 Google Cloud 控制台请求增加配额。要了解有关配额的更多信息,请参阅使用配额。