具有Spacy的其他命名实体识别所需的培训数据量是多少? 我使用spacy模块查找输入文本的名称实体。我正在训练该模型以预测医学术语。我目前可以使用200万张医疗票据,我为此写了一个程序。

问题描述 投票:0回答:1

i我从头开始培训了希腊语言的指定实体识别器,因为没有数据,所以我会尝试将我注意到我注意到的事情摘要。

I使用

生产量注释工具训练了NER。 从我的个人经验中对您的问题的答案取决于以下内容:

您希望识别器能够预测的标签数量。有道理的是,当标签数量(可能的输出)增加时,神经网络的难度越来越难以区分它们,以增加您需要的数据量。
标签有何不同。例如,GPE和LOC标签非常接近,并且经常在相同的上下文中使用,因此神经网络一开始就使它们感到困惑。建议提供与彼此靠近的标签有关的更多数据。
培训方式。这里几乎有两种可能性:

注释句子。这意味着您告诉您的神经网络,您的注释没有缺少标签。

部分注释句子。这意味着您告诉您的神经网络您的注释正确,但可能缺少某些标签。这使得网络更难依靠您的数据,因此,需要提供更多数据。

Hyper-Parameters。微调网络以获取数据集的最大值非常重要。
machine-learning nlp spacy named-entity-recognition
1个回答
2
投票

对于希腊模型,我试图预测6个与众不同的标签中,我在2000年提供了大约2000年的注释句子,我花了很多时间进行微调。

逆转:70%的F量级,这对任务的复杂性非常好。 希望它有帮助!

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.