如何获取OpenNLP模型的训练数据集?

问题描述 投票:0回答:2

我正在使用以下 OpenNLP 模型:

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以获得原始数据集?

machine-learning nlp text-mining opennlp
2个回答
0
投票

有可用的插件。使用此 modelbuilder-addon 更新现有 NER 模型,并以更快的方式创建新模型。

链接中的代码的作用是在您的句子中读取,使用默认的 en-ner-person 模型来做到最好。然后它将这些结果写入良好命中的文件和不良命中的文件中。然后它将这些文件输入到底部的“modelbuilder-addon”调用中。

希望这有帮助!


0
投票

OpenNLP官方手册Chunker Training部分提到了用于EN语言模型文件训练的原始数据的参考:

训练数据可以转换为基于 CoNLL2000 的 OpenNLP chunker 训练格式。

您还可以找到其他参考资料,例如,第 12 章 Corpora,用于 OpenNLP 中/用于 OpenNLP 的外部资源。

此外,CoNLL2003 语料库可能令人感兴趣:

英文数据是路透社语料库,是新闻专线文章的集合。出于研究目的,可以从 NIST 免费获取路透社语料库:http://trec.nist.gov/data/reuters/reuters.html

希望有帮助。

© www.soinside.com 2019 - 2024. All rights reserved.