我想用 llama 3 构建一个电报聊天机器人。我正在寻找各种方法来做到这一点。有人建议我在 Google 上使用 VertexAI,但我无法理解 llama 3 的价格。我只找到了 VertexAI 上部署的 Gemini 模型的价格信息。另一种方法是创建一个 Google Cloud VM 并在那里用 llama 构建一个 docker,但在这种情况下我也不熟悉价格。您能帮助我了解哪种方法是最好的方法吗?
我从 Google VertexAI 文档中找到了一些有关其价格的信息,但它们非常模糊。
Vertex AI Model Garden 是查找和部署 Llama3 的最佳选择。使用此链接前往骆驼模型花园。它是模型存储库,您可以在其中直接部署(并运行推理)Llama3,有 2 个选项:
这两个选项都要求您的 GCP 项目有足够的加速器(TPU 或 GPU)配额。例如,Llama3-8B-chat-001 的 Vertex AI 部署可以部署到 TPU ct5lp-highcpu-4t 或 GPU g2-standard-12 机器。
部署到 GKE 需要您配置 GKE Autopilot 集群,但模型花园提供了大部分 GKE 配置(清单文件)来部署模型并分配 TPU/GPU。
从基础设施方面以及加速器优化来看,Vertex AI 方法将变得更加容易。 您可以配置 GCE VM 并安装 Docker,但涉及更多工作。主要是在裸虚拟机上配置 TPU/GPU 等加速器。
参考定制训练模型进行定价。