针对不同语言的特定领域微调 BERT？

Question

我想对预训练的 BERT 模型进行微调。但是，我的任务使用特定领域内的数据（例如生物医学数据）。此外，我的数据也采用不同于英语的语言（例如荷兰语）。

现在我可以微调 Dutch bert-base-dutch-cased 预训练模型。然而，我将如何微调生物医学 BERT 模型，例如 BioBERT，哪个属于正确的域，但语言错误？

我曾考虑过使用 NMT，但认为它不可行且不值得付出努力。如果我在不对模型进行任何更改的情况下进行微调，我担心模型将无法很好地学习任务因为它是用完全不同的语言进行预训练的。

Answer 1

我只是想知道是否有任何方法可以对在特定领域训练的预训练 BERT 模型进行微调，并将其用于同一领域内但不同语言的数据

可能不是。 BERT 的词汇在预训练开始时是固定的，添加额外的词汇会导致随机权重初始化。

相反，我会：

Answer 2

以前从未尝试过，但我相信您可以在 Dutch BERT 模型上应用任务自适应预训练 (TAPT)，这意味着您可以在以荷兰语提供的小型生物医学数据上预训练 Dutch BERT 模型，以使其增强其所拥有的一般知识荷兰人对您的任务（您感兴趣的生物医学任务）有具体的了解。

Answer 3

我认为它不起作用，即使它起作用，BERT 也很有可能将许多荷兰语单词标记为未知。所以，我建议你尝试使用这个多语言 BERT 模型进行微调 https://huggingface.co/google-bert/bert-base-multilingual-cased