在有关并发的 GCR 文档中,建议允许并发连接,除非您预计每个请求都会耗尽 CPU/RAM (https://cloud.google.com/run/docs/about-concurrency#concurrency-1 ).
我在解释“指标”图表时遇到困难(下图)。
问题:
这是否意味着我的请求使用了大约 20% 的 CPU? 图表是这么说的,但图例将红线列为 95%:17%,这对我来说没有任何意义。
如果是(即 20% CPU),这是否意味着我可以安全地将并发性增加到 4-5 (20% x 5 = 100%)?
如果增加 CPU 数量,我是否会看到单个请求的更好性能,或者处理更多请求的能力? (我正在运行一个 CPU 密集型机器学习任务。)如果没有更多细节,也许无法回答这个问题,但请询问是否有通用答案。
在“修订”选项卡中,您可以选择预览“较慢的冷启动但更有效的 CPU 使用率”,但尚不清楚每个权衡有多大......是否有人对“启动速度比处理速度慢多少?”
谢谢!
回答您的问题:
1000
。您可以查看此文档中的并发值和设置最大并发(服务)。并发的默认值为 80
。1
将减少冷启动次数,因为它将准备好服务传入请求,因为它将在空闲状态下运行。缺点是,由于服务仍在运行,这会产生费用。 Google 建议购买承诺使用折扣,因为这些费用非常可预测。有关最小实例的完整文档可以通过此链接找到。传说是统计数据。 50% 与中位数相同,95% 和 99% 是百分位数。 这意味着 50% 的测量值低于 0.67% CPU,95% 的测量值低于 17.8%,99% 的测量值低于 17.96%。 您的 CPU 没有被充分使用。