针对不同语言的特定领域微调 BERT?

问题描述 投票:0回答:3

我想对预训练的 BERT 模型进行微调。 但是,我的任务使用特定领域内的数据(例如生物医学数据)。 此外,我的数据也采用不同于英语的语言(例如荷兰语)。

现在我可以微调 Dutch bert-base-dutch-cased 预训练模型。 然而,我将如何微调生物医学 BERT 模型,例如 BioBERT, 哪个属于正确的域,但语言错误?

我曾考虑过使用 NMT,但认为它不可行且不值得付出努力。 如果我在不对模型进行任何更改的情况下进行微调,我担心模型将无法很好地学习任务 因为它是用完全不同的语言进行预训练的。

python-3.x deep-learning nlp bert-language-model
3个回答
1
投票

我只是想知道是否有任何方法可以对在特定领域训练的预训练 BERT 模型进行微调,并将其用于同一领域内但不同语言的数据

可能不是。 BERT 的词汇在预训练开始时是固定的,添加额外的词汇会导致随机权重初始化

相反,我会:

  1. 正如 @Ashwin 所说,寻找多语言、特定领域的 BERT 版本。
  2. 根据您的任务微调 Dutch BERT,看看性能是否可以接受。总的来说,BERT 可以很好地适应不同的任务。
  3. (如果您有可用资源)继续在您的特定领域(例如,SciBERT)预训练 Dutch BERT,然后对您的任务进行微调。

0
投票

以前从未尝试过,但我相信您可以在 Dutch BERT 模型上应用任务自适应预训练 (TAPT),这意味着您可以在以荷兰语提供的小型生物医学数据上预训练 Dutch BERT 模型,以使其增强其所拥有的一般知识荷兰人对您的任务(您感兴趣的生物医学任务)有具体的了解。


0
投票

我认为它不起作用,即使它起作用,BERT 也很有可能将许多荷兰语单词标记为未知。所以,我建议你尝试使用这个多语言 BERT 模型进行微调 https://huggingface.co/google-bert/bert-base-multilingual-cased

© www.soinside.com 2019 - 2024. All rights reserved.