使用word2vec对类别中的单词进行分类

Question

背景

我有带有一些样本数据的向量，每个向量都有一个类别名称（地点、颜色、名称）。

['john','jay','dan','nathan','bob']  -> 'Names'
['yellow', 'red','green'] -> 'Colors'
['tokyo','bejing','washington','mumbai'] -> 'Places'

我的目标是训练一个模型，该模型采用新的输入字符串并预测它属于哪个类别。例如，如果新输入是“紫色”，那么我应该能够将“颜色”预测为正确的类别。如果新输入是“卡尔加里”，它应该将“地点”预测为正确的类别。

方法

我做了一些研究并发现了Word2vec。这个库有一个我可以使用的“相似性”和“最相似性”函数。所以我想到的一种蛮力方法如下：

接受新的输入。
计算每个向量中每个单词的相似度并取平均值。

例如，对于输入“粉红色”，我可以计算其与向量“名称”中单词的相似度，取平均值，然后对其他 2 个向量也执行此操作。给我最高相似度平均值的向量将是输入所属的正确向量。

问题

鉴于我在 NLP 和机器学习方面的知识有限，我不确定这是否是最好的方法，因此我正在寻找更好的方法来解决我的问题的帮助和建议。我愿意接受所有建议，也请指出我可能犯的任何错误，因为我是机器学习和 NLP 世界的新手。

Answer 1

如果您正在寻找最简单/最快的解决方案，那么我建议您采用预先训练的词嵌入（Word2Vec 或 GloVe），并在其上构建一个简单的查询系统。这些向量已经在巨大的语料库上进行了训练，并且可能包含与您的领域数据足够好的近似值。

这是我的解决方案：

import numpy as np

# Category -> words
data = {
  'Names': ['john','jay','dan','nathan','bob'],
  'Colors': ['yellow', 'red','green'],
  'Places': ['tokyo','bejing','washington','mumbai'],
}
# Words -> category
categories = {word: key for key, words in data.items() for word in words}

# Load the whole embedding matrix
embeddings_index = {}
with open('glove.6B.100d.txt') as f:
  for line in f:
    values = line.split()
    word = values[0]
    embed = np.array(values[1:], dtype=np.float32)
    embeddings_index[word] = embed
print('Loaded %s word vectors.' % len(embeddings_index))
# Embeddings for available words
data_embeddings = {key: value for key, value in embeddings_index.items() if key in categories.keys()}

# Processing the query
def process(query):
  query_embed = embeddings_index[query]
  scores = {}
  for word, embed in data_embeddings.items():
    category = categories[word]
    dist = query_embed.dot(embed)
    dist /= len(data[category])
    scores[category] = scores.get(category, 0) + dist
  return scores

# Testing
print(process('pink'))
print(process('frank'))
print(process('moscow'))

为了运行它，您必须从here下载并解压预先训练的 GloVe 数据（小心，800Mb！）。运行后，它应该产生如下内容：

{'Colors': 24.655489603678387, 'Names': 5.058711671829224, 'Places': 0.90213905274868011}
{'Colors': 6.8597321510314941, 'Names': 15.570847320556641, 'Places': 3.5302454829216003}
{'Colors': 8.2919375101725254, 'Names': 4.58830726146698, 'Places': 14.7840416431427}

...看起来很合理。就是这样！如果不需要这么大的模型，可以根据

tf-idf

分数过滤glove中的单词。请记住，模型大小仅取决于您拥有的数据和您可能希望能够查询的单词。

Answer 2

此外，它的价值在于，PyTorch 如今对 Glove 有着良好且更快的实现。

Answer 3

抱歉提问，我想问是否有类似的支持意大利语的型号

使用word2vec对类别中的单词进行分类

问题描述投票：0回答：3

3个回答

最新问题

使用word2vec对类别中的单词进行分类

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3