我正在寻找测试数据集来优化我的Word2Vec模型。我从gensim找到了一个不错的产品:
gensim / test / test_data / questions-words.txt
有人知道其他类似的数据集吗?
谢谢!
需要特别注意的是,词向量并没有真正的“地面真理”。您可以使用它们完成一些有趣的任务,并且在某些特定任务上,单词向量的某些排列方式会比其他任务更好。
[而且,在一项任务上最好的单词向量-例如questions-words.txt
问题样式的类比求解-在另一项重要任务上可能不是最好的-例如说为分类或信息检索建模文本。
也就是说,您可以以与questions-words.txt
相同的格式制作自己的测试数据。 Google最初的word2vec.c
版本还包括一个用于将附近的单词统计组合成多单词短语的工具,还包括一个questions-phrases.txt
文件,其格式相同,可用于测试结构相似的单词向量用于实际上是多个单词的简短短语的“单词”。
Python questions-phrases.txt
词向量支持包括一个额外的方法,gensim
用于检查词向量,而不是根据类比求解,而是根据人类确定的词相似性排名的集合。该方法的文档包括指向该方法的适当测试集的链接evaluate_word_pairs()
,您也许可以在其他地方找到相同格式的其他测试集。
但是同样,这些都不应该被认为是词向量整体质量的绝对测试。对于您的特定项目使用单词向量的最佳测试,是您自己设计的可重复的针对特定领域的评估得分,这与您的最终目标内在相关。