我正在致力于训练一个(小规模)大型语言模型,并希望在 Google Colab 上并行化训练。具体来说,我想知道是否可以利用多个 TPU 或 GPU 来加速训练并更有效地处理大型模型。
如果可能,是否有任何在线教程或开源示例来演示如何进行设置?
我发现一个历史帖子说这是不可能的, 在 Google Colab 中使用多个 GPU 进行 Tensorflow 分布式训练 不确定4年多后是否仍然如此。
正如旧文章中提到的,您不能将相同的模型放置在许多 GPU 实例上。尽管存在“联邦学习”的概念,您可以在多个实例上进行训练并从中进行聚合。但我不确定这在培训法学硕士时如何适用,但值得一试。