word2vec:以不区分大小写的方式找到相似的词。

问题描述 投票:3回答:2

我可以获得我感兴趣的文本语料库中的单词向量。现在,我面临的问题是这些向量是大小写敏感的,例如 "Him "和 "他 "不同,"HIM "也不同。

我想找到与 "Him "这个词最相似的词是一种不区分大小写的方式。我使用的是 distance.c 程序,与谷歌 word2vec 包。这里我面临一个问题。

我是否应该将 "他他他 "作为参数传递给 distance.c 可执行的。这样就会返回发送的字数闭于3个字。

或者我应该运行 distance.c 程序分别与3个参数("Him "和 "他 "和 "HIM"),然后以合理的方式将这些列表放在一起,得出最相似的词?请提出建议。

deep-learning nlp word2vec case-sensitive
2个回答
0
投票

如果你想以不区分大小写的方式找到相似的单词,你应该将所有的单词向量转换为小写或大写,然后运行编译版的 distance.c.

使用标准的shell工具,这是很容易做到的。

例如,如果你的原始数据在一个名为 input.txt下面的内容可以在大多数类似Unix的shell上使用,你可以将二进制格式转换为文本,然后根据自己的需要进行操作。

tr '[:upper:]' '[:lower:]' < input.txt > output.txt

0
投票

你可以将二进制格式转换为文本,然后进行你认为合适的操作。

© www.soinside.com 2019 - 2024. All rights reserved.