我可以获得我感兴趣的文本语料库中的单词向量。现在,我面临的问题是这些向量是大小写敏感的,例如 "Him "和 "他 "不同,"HIM "也不同。
我想找到与 "Him "这个词最相似的词是一种不区分大小写的方式。我使用的是 distance.c
程序,与谷歌 word2vec
包。这里我面临一个问题。
我是否应该将 "他他他 "作为参数传递给 distance.c
可执行的。这样就会返回发送的字数闭于3个字。
或者我应该运行 distance.c
程序分别与3个参数("Him "和 "他 "和 "HIM"),然后以合理的方式将这些列表放在一起,得出最相似的词?请提出建议。
如果你想以不区分大小写的方式找到相似的单词,你应该将所有的单词向量转换为小写或大写,然后运行编译版的 distance.c
.
使用标准的shell工具,这是很容易做到的。
例如,如果你的原始数据在一个名为 input.txt
下面的内容可以在大多数类似Unix的shell上使用,你可以将二进制格式转换为文本,然后根据自己的需要进行操作。
tr '[:upper:]' '[:lower:]' < input.txt > output.txt
你可以将二进制格式转换为文本,然后进行你认为合适的操作。