我正在使用以下 OpenNLP 模型:
en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin
我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以获得原始数据集?
有可用的插件。使用此 modelbuilder-addon 更新现有 NER 模型,并以更快的方式创建新模型。
链接中的代码的作用是在您的句子中读取,使用默认的 en-ner-person 模型来做到最好。然后它将这些结果写入良好命中的文件和不良命中的文件中。然后它将这些文件输入到底部的“modelbuilder-addon”调用中。
希望这有帮助!
OpenNLP官方手册的Chunker Training部分提到了用于EN语言模型文件训练的原始数据的参考:
训练数据可以转换为基于 CoNLL2000 的 OpenNLP chunker 训练格式。
您还可以找到其他参考资料,例如,第 12 章 Corpora,用于 OpenNLP 中/用于 OpenNLP 的外部资源。
此外,CoNLL2003 语料库可能令人感兴趣:
英文数据是路透社语料库,是新闻专线文章的集合。出于研究目的,可以从 NIST 免费获取路透社语料库:http://trec.nist.gov/data/reuters/reuters.html
希望有帮助。