我想对预训练的 BERT 模型进行微调。 但是,我的任务使用特定领域内的数据(例如生物医学数据)。 此外,我的数据也采用不同于英语的语言(例如荷兰语)。
现在我可以微调 Dutch bert-base-dutch-cased 预训练模型。 然而,我将如何微调生物医学 BERT 模型,例如 BioBERT, 哪个属于正确的域,但语言错误?
我曾考虑过使用 NMT,但认为它不可行且不值得付出努力。 如果我在不对模型进行任何更改的情况下进行微调,我担心模型将无法很好地学习任务 因为它是用完全不同的语言进行预训练的。
我只是想知道是否有任何方法可以对在特定领域训练的预训练 BERT 模型进行微调,并将其用于同一领域内但不同语言的数据
可能不是。 BERT 的词汇在预训练开始时是固定的,添加额外的词汇会导致随机权重初始化。
相反,我会:
以前从未尝试过,但我相信您可以在 Dutch BERT 模型上应用任务自适应预训练 (TAPT),这意味着您可以在以荷兰语提供的小型生物医学数据上预训练 Dutch BERT 模型,以使其增强其所拥有的一般知识荷兰人对您的任务(您感兴趣的生物医学任务)有具体的了解。
我认为它不起作用,即使它起作用,BERT 也很有可能将许多荷兰语单词标记为未知。所以,我建议你尝试使用这个多语言 BERT 模型进行微调 https://huggingface.co/google-bert/bert-base-multilingual-cased