将初始输出导出为spacy的训练输入格式

问题描述 投票:0回答:1

我正在使用 INCEpTION 0.11.0 (https://inception-project.github.io/) 来注释我的训练数据。 我想使用 python spacy 来使用这个训练数据。 我可以在 Inception 中看到几种可以导出的格式,但我不确定哪一种最适合 spacy。

enter image description here

我看不到任何关于将这些导出的文件转换为空间格式的文档。

我可以编写一个新脚本来完成此转换。在此之前,我想知道是否有人已经解决了这个问题并可以提供一些建议?我应该选择哪种导出格式,以便更容易转换为 spacy 的格式?

python-3.x spacy named-entity-recognition inception
1个回答
3
投票

将数据导出为 CONLLU 可能是最直接的方法。 SpaCy 可以使用 converter script 将 CONLLU 文档转换为其预期格式:

python -m spacy convert /path/to/input/doc.connlu /path/to/output/doc.jsonl -c conllu

您会发现它支持 CONLL 文档的转换,但并不是立即显而易见 支持哪些 CONLL 格式。您可以通过使用上面的

-c
参数来尝试此操作。

© www.soinside.com 2019 - 2024. All rights reserved.