word2vec：以不区分大小写的方式找到相似的词。

Question

我可以获得我感兴趣的文本语料库中的单词向量。现在，我面临的问题是这些向量是大小写敏感的，例如 "Him "和 "他 "不同，"HIM "也不同。

我想找到与 "Him "这个词最相似的词是一种不区分大小写的方式。我使用的是 distance.c 程序，与谷歌 word2vec 包。这里我面临一个问题。

我是否应该将 "他他他 "作为参数传递给 distance.c 可执行的。这样就会返回发送的字数闭于3个字。

或者我应该运行 distance.c 程序分别与3个参数（"Him "和 "他 "和 "HIM"），然后以合理的方式将这些列表放在一起，得出最相似的词？请提出建议。

Answer 1

如果你想以不区分大小写的方式找到相似的单词，你应该将所有的单词向量转换为小写或大写，然后运行编译版的 distance.c.

使用标准的shell工具，这是很容易做到的。

例如，如果你的原始数据在一个名为 input.txt下面的内容可以在大多数类似Unix的shell上使用，你可以将二进制格式转换为文本，然后根据自己的需要进行操作。

tr '[:upper:]' '[:lower:]' < input.txt > output.txt

Answer 2

你可以将二进制格式转换为文本，然后进行你认为合适的操作。