使用确定性掩蔽而不是随机掩蔽来微调 BERT

Question

我想在特定数据集上微调 BERT。我的问题是，我不想随机屏蔽训练数据集中的某些标记，但我已经选择了要屏蔽的标记（出于某些原因）。

为此，我创建了一个包含两列的数据集：

text

，其中一些标记已替换为

[MASK]

（我知道一些单词可以用多个标记进行标记，我小心了的）和

label

我有全文。

现在我想使用 Hugging Face 的

transformers

库微调 BERT 模型（例如 bert-base-uncased），但我不想使用

 DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm_probability=0.2)

，其中掩蔽是随机完成的，我只能控制可能性。我能做什么？

Answer 1

您可能想要针对特定领域的 BERT 进行调整。到目前为止我还找不到定制的屏蔽。但我发现这篇论文很有用 PERL：预训练深度的基于枢轴的域适应情境化嵌入模型如果有人有办法为 BertForMaskedLM 定制屏蔽请指导