现在,我正在写硕士论文,需要在 GCP 上训练一个巨大的 Transformer 模型。而训练深度学习模型最快的方法就是使用 GPU。所以,我想知道 GCP 提供的 GPU 中我应该使用哪种 GPU? 目前可用的 GPU 是:
这完全取决于您正在寻找的特征是什么。
首先,让我们收集一些有关这些不同 GPU 型号的信息,看看哪一个最适合您。您可以通过谷歌搜索每个型号的名称并查看其特征。我这样做了,并创建了下表:
型号 | FP32(TFLOPS) | 价格 | TFLOPS/美元 |
---|---|---|---|
Nvidia A100 | 19.5 | 2.933908 | 6.646425178 |
Nvidia Tesla T4 | 8.1 | 0.35 | 23.14285714 |
Nvidia Tesla P4 | 5.5 | 0.6 | 9.166666667 |
Nvidia Tesla V100 | 14 | 2.48 | 5.64516129 |
Nvidia Tesla P100 | 9.3 | 1.46 | 6.369863014 |
Nvidia Tesla K80 | 8.73 | 0.45 | 19.4 |
在上表中,您可以看到:
FP32
:代表32位浮点,衡量该GPU卡单精度浮点运算的速度。它以 TFLOPS 或 *Tera 浮点运算 来衡量...越高越好。Price
:GCP 上的每小时价格。TFLOPS/Price
:简单地说,一美元可以获得多少操作。从这张表中,您可以看到:
Nvidia A100
是最快的。Nvidia Tesla P4
是最慢的。Nvidia A100
是最贵的。Nvidia Tesla T4
是最便宜的。Nvidia Tesla T4
每美元的运营量最高。Nvidia Tesla V100
每美元的运营成本最低。您可以在下图中清楚地观察到这一点:
我希望这对你有帮助!
Nvidia 表示,使用最现代、最强大的 GPU 不仅速度更快,而且最终也更便宜:https://developer.nvidia.com/blog/ saving-time-and-money-in-the-cloud-使用最新的 nvidia 驱动实例/
Google 也得出了类似的结论(这是几年前 A100 面世之前的事):https://cloud.google.com/blog/products/ai-machine-learning/your-ml-workloads-cheaper -使用最新 GPU 速度更快
我想你可能会说英伟达和谷歌在做出这样的判断时可能有点偏见,但他们也有能力回答这个问题,我认为没有理由不相信他们。
截至2024年5月26日,NVidia L4比T4具有更好的性价比。
型号 | FP32(TFlops) | 价格(区域:us-central1) | TFLOPS/美元 |
---|---|---|---|
L4 | 30.3 | $0.644046 | 47.046328989 |
T4 | 8.1 | 0.4025 美元 | 20.124223602 |