TypeError：ufunc'add'不包含带有签名匹配类型dtype的循环

Question

我想将X_train_word2vec向量作为输入传递给Gensim Word2Vec模型。矢量类型是numpy.ndarray，例如：

X_train_word2vec[9] = array([   19,     7,     1, 20120,     2,     1,   856,   233,   671,
       1,  1208,  6016,     2,    32,     0,     0,     0,     0, ....)]

当我运行此代码时：

model_word2vec = models.Word2Vec(X_train_word2vec, size=150, window=9)
model_word2vec.train(X_train_word2vec,total_examples=X_train_word2vec.shape[0], epochs=10)

我收到此错误：

TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U11') dtype('<U11') dtype('<U11')

我读过this帖子，问题是由于输入数组中的数据类型不同，但在我的情况下，我有相同类型的所有数据：int。

更新：model_Word2Vec之前的代码：

tokenizer = Tokenizer()
tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

seq_max_len = 50
X_seq = pad_sequences(sequenza, maxlen=seq_max_len,padding='post',truncating='post',dtype=int)

X_train_word2vec, X_test_word2vec, y_train_word2vec, y_test_word2vec = train_test_split(X_seq, y_cat, test_size=0.2, random_state=123)

Answer 1

Gensim的Word2Vec需要一个文本语料库 - 例如在其初始化器的第一个参数中 - 这是一个可串行的序列对象的列表 - 字符串 - 令牌。它不需要原始的numpy数组。

此外，如果您在实例化时提供语料库，就像在您的代码行中一样......

model_word2vec = models.Word2Vec(X_train_word2vec, size=150, window=9)

...然后它将自动进行词汇构建和培训步骤。您无需再明确调用train()。（而且，虽然可以再次调用train()，但很少有用户会做非常高级的事情。通常，安全的方法是在完整的语料库上进行单一的训练，然后模型“完成”。）

最后，train()还期望任何语料库作为字符串标记列表的可迭代序列对象。

如果您提供正确的语料库，那么您会收到类似于您的错误，这是值得怀疑的。

TypeError：ufunc'add'不包含带有签名匹配类型dtype的循环

问题描述投票：1回答：1

1个回答

最新问题

TypeError：ufunc'add'不包含带有签名匹配类型dtype的循环

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1