我想在特定数据集上微调 BERT。我的问题是,我不想随机屏蔽训练数据集中的某些标记,但我已经选择了要屏蔽的标记(出于某些原因)。
为此,我创建了一个包含两列的数据集:
text
,其中一些标记已替换为 [MASK]
(我知道一些单词可以用多个标记进行标记,我小心了的)和 label
我有全文。
现在我想使用 Hugging Face 的
transformers
库微调 BERT 模型(例如 bert-base-uncased),但我不想使用 DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm_probability=0.2)
,其中掩蔽是随机完成的,我只能控制可能性。我能做什么?
您可能想要针对特定领域的 BERT 进行调整。 到目前为止我还找不到定制的屏蔽。 但我发现这篇论文很有用 PERL:预训练深度的基于枢轴的域适应 情境化嵌入模型 如果有人有办法为 BertForMaskedLM 定制屏蔽 请指导