尝试使用免费资源在本地机器上的大型数据集上训练 gpt2

问题描述 投票:0回答:1

是否可以在 Colab、jupyter 或 kaggle 上的 1.5m 数据点上训练 gpt2?

到目前为止,我尝试在 Colab 中执行此操作,但在标记化过程中它耗尽了存储空间,这是可以理解的。我也尝试过批处理技术。后来我尝试在 kaggle 上运行相同的算法,但目前加载变压器时显示错误。尝试仍然运行它。我只是想知道是否可以做到这一点!

python-3.x machine-learning artificial-intelligence large-language-model ml
1个回答
0
投票

我知道,由于有限的会话时间和计算资源(例如 T4 GPU),在 Google Colab 的免费版本上微调 LLM 可能非常具有挑战性,这并不理想。因此,我相信升级到 Colab Pro 可能会有所帮助。或者,您可以考虑使用 Kaggle,它提供免费的 GPU,其性能比免费的 Colab 版本更好——只需验证您的手机号码即可访问。

如果您有一台配备专用 GPU 的笔记本电脑,例如 RTX 3060 或具有 4GB+ VRAM 的类似笔记本电脑,您也可以尝试在本地进行微调。请注意,此过程可能需要相当长的时间,可能超过 24 小时。

另一种选择是减少数据集进行微调,这可以一次性解决资源约束问题。

最后,如果您不想减少数据点,那么我建议使用Together.ai。他们在注册时提供 25 美元的免费积分,允许您在他们的平台上训练模型。 Together.ai 提供了多种模型来微调您的自定义数据。

最诚挚的问候, 奥尤斯楚格

© www.soinside.com 2019 - 2024. All rights reserved.