是否可以在 Colab、jupyter 或 kaggle 上的 1.5m 数据点上训练 gpt2?
到目前为止,我尝试在 Colab 中执行此操作,但在标记化过程中它耗尽了存储空间,这是可以理解的。我也尝试过批处理技术。后来我尝试在 kaggle 上运行相同的算法,但目前加载变压器时显示错误。尝试仍然运行它。我只是想知道是否可以做到这一点!
我知道,由于有限的会话时间和计算资源(例如 T4 GPU),在 Google Colab 的免费版本上微调 LLM 可能非常具有挑战性,这并不理想。因此,我相信升级到 Colab Pro 可能会有所帮助。或者,您可以考虑使用 Kaggle,它提供免费的 GPU,其性能比免费的 Colab 版本更好——只需验证您的手机号码即可访问。
如果您有一台配备专用 GPU 的笔记本电脑,例如 RTX 3060 或具有 4GB+ VRAM 的类似笔记本电脑,您也可以尝试在本地进行微调。请注意,此过程可能需要相当长的时间,可能超过 24 小时。
另一种选择是减少数据集进行微调,这可以一次性解决资源约束问题。
最后,如果您不想减少数据点,那么我建议使用Together.ai。他们在注册时提供 25 美元的免费积分,允许您在他们的平台上训练模型。 Together.ai 提供了多种模型来微调您的自定义数据。
最诚挚的问候, 奥尤斯楚格