i我从头开始培训了希腊语言的指定实体识别器,因为没有数据,所以我会尝试将我注意到我注意到的事情摘要。
I使用生产量注释工具训练了NER。 从我的个人经验中对您的问题的答案取决于以下内容:
您希望识别器能够预测的标签数量。有道理的是,当标签数量(可能的输出)增加时,神经网络的难度越来越难以区分它们,以增加您需要的数据量。 标签有何不同。例如,GPE和LOC标签非常接近,并且经常在相同的上下文中使用,因此神经网络一开始就使它们感到困惑。建议提供与彼此靠近的标签有关的更多数据。培训方式。这里几乎有两种可能性:
注释句子。这意味着您告诉您的神经网络,您的注释没有缺少标签。
部分注释句子。这意味着您告诉您的神经网络您的注释正确,但可能缺少某些标签。这使得网络更难依靠您的数据,因此,需要提供更多数据。 Hyper-Parameters。微调网络以获取数据集的最大值非常重要。