在 bert 上训练新数据集

问题描述 投票:0回答:1

我有一个亚马逊评论数据集,我想根据评论预测星级评分

我知道我可以使用预训练的 bert 模型,如下所示这里

但是我想在自己的数据集上训练bert模型。这就是这里正在做的事情吗?我可以在任何数据集的预训练模型上应用这种类型的“微调”以获得更准确的结果,还是我必须做其他事情来从头开始训练模型

如果我确实想从头开始训练模型,我该从哪里开始

machine-learning nlp tokenize bert-language-model
1个回答
0
投票

首先什么是预训练?该过程使用大量原始文本 (40GB) 和处理能力,帮助模型学习语言的句法<==>语义(这是一个谱)特征。目标函数:休闲语言模型和掩码语言模型

如何微调预训练模型?假设有一个模型,它具有关于英语语言一般方面的知识(词性、依存树、主语......一切都有一点)。微调帮助我们将模型的焦点集中在数据集中最重要的特征上,假设在您的数据集中,某些语法特征是游戏规则改变者,模型应该小心它! 目标函数:基于下游任务

从头开始训练对于我们大多数人来说是不可行的,但是有一种方法可以使用您自己的语料库/语料库(特定于任务的)继续预训练阶段,而不会损坏模型知识片段(希望如此)! 目标函数:休闲语言模型和掩码语言模型

这里是一篇关于这种方法及其有效性的文章,您可以从ScibertCOVIDbert中获得启发。正如您所期望的那样,使用预训练的 bert 作为起点,并使用特定领域的语料库继续预训练!

© www.soinside.com 2019 - 2024. All rights reserved.