使用确定性掩蔽而不是随机掩蔽来微调 BERT

问题描述 投票:0回答:1

我想在特定数据集上微调 BERT。我的问题是,我不想随机屏蔽训练数据集中的某些标记,但我已经选择了要屏蔽的标记(出于某些原因)。

为此,我创建了一个包含两列的数据集:

text
,其中一些标记已替换为
[MASK]
(我知道一些单词可以用多个标记进行标记,我小心了的)和
label
我有全文。

现在我想使用 Hugging Face 的

transformers
库微调 BERT 模型(例如 bert-base-uncased),但我不想使用
 DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm_probability=0.2)
,其中掩蔽是随机完成的,我只能控制可能性。我能做什么?

nlp huggingface-transformers bert-language-model
1个回答
0
投票

您可能想要针对特定领域的 BERT 进行调整。 到目前为止我还找不到定制的屏蔽。 但我发现这篇论文很有用 PERL:预训练深度的基于枢轴的域适应 情境化嵌入模型 如果有人有办法为 BertForMaskedLM 定制屏蔽 请指导

© www.soinside.com 2019 - 2024. All rights reserved.