doc2vec 相关问题

Doc2Vec是一种无监督算法,用于转换向量中的文档(“密集嵌入”)。它基于“Paragraph Vector”论文,并在Gensim Python库和其他地方实现。该算法可以在“Distributed Bag Of Words”模式下工作(PV-DBOW,其工作方式与Word2Vec中的skip-gram模式类似)或“分布式存储器”模式(PV-DM,更类似于CBOW模式)在Word2Vec。)

Gensim Doc2VecKeyedVectors 调用similar_by_vector() 会导致“需要解包的值太多”

我使用 Gensim 4.0 将向量存储在 Doc2VecKeyedVectors 中以执行相似性查找,但出现错误。 这是一些示例代码: 型号 = 语料库 = 我使用 Gensim 4.0 将向量存储在 Doc2VecKeyedVectors 中以执行相似性查找,但出现错误。 这是一些示例代码: model = <load a Doc2Vec model> corpus = <load an object which returns key/words pairs> kv = Doc2VecKeyedVectors(vector_size=50) for key, words in corpus: vector = model.infer_vector(words) kv.add_vector(key, vector) test_words = ['word1', 'word2', ...] vector = model.infer_vector(test_words) sims = kv.similar_by_vector(vector, topn=200) 在most_similar()方法中keyedvectors.py的第758行调用similar_by_vector()会抛出“ValueError:太多值无法解包(预期为2)”。 我浏览了源代码,看起来它期望密钥与向量一起传入,根据方法签名,这似乎很奇怪。 关于我做错了什么有什么想法吗? 我发现了问题所在。我给出的代码示例忽略了这样一个事实:对 infer_vector() 的调用实际上是对远程服务器的调用,该服务器返回浮点数列表,而不是 ndarray。好吧,在调用 simple_by_vector() 之前我从未将其转换回 ndarray,这就是问题的原因。

回答 1 投票 0

Gensim 的 Doc2Vec 包含多种语言的文档

我正在利用文档向量表示的相似性构建一个基于内容的推荐系统。 我的文档是书籍的描述。大多数是英文的,但也有一些是

回答 1 投票 0

为什么相同的 tokenize 单词列表 doc2vec 的结果是错误的?

我正在使用Doc2vec模型。我使用包含维基百科中超过 2 万篇文章的数据集来预训练模型。之后,我尝试通过计算两个句子之间的相似度来测试结果。 我有两个

回答 1 投票 0

解决运行Doc2vec gensim时结果不同的问题的解决方案?

我尝试查找有关Doc2vec运行时返回不同结果的问题的信息。我之前看到了很多关于此的问题,我知道它发生是因为向量是随机初始化的。嗬...

回答 1 投票 0

Doc2vec支持多种语言吗?transvec lib是否用于Doc2vec模型?

我是机器学习的新手。现在我想计算不同语言的两个文档之间的相似度(例如:越南语文档和英语文档)。 我知道我们是否比较多林...

回答 1 投票 0

Python:“Doc2Vec”对象没有属性“dv”

感谢您的建议,我已经编辑了问题 我遇到这个: AttributeError: 'Doc2Vec' object has no attribute 'dv' 错误来自 回溯(最近一次调用最后一次): 文件“F:\Projects\项目代码\

回答 2 投票 0

如何根据输入的问题内容查询相似度高的问题?

我有一个Java学生考试系统。 mysql数据库中有超过一百万个问题。题目内容由中文、英文、乳胶数学公式组成。 现在,我想要...

回答 1 投票 0

识别 doc2vec 模型中操作的冗余

我注意到 doc2vec 模型在相似性计算过程中存在潜在的冗余。看来在选择推荐菜谱时,重新计算所有向量和相似度会增加指数......

回答 1 投票 0

如何在gensim doc2vec中获取与标记文档最相似的单词

我训练了一个doc2vec模型。 doc2vec = Doc2Vec(向量大小= 300, 窗口=10, 最小计数=100, dm=1, 纪元=40) doc2vec。

回答 1 投票 0

检测具有相同单词的句子中的语义差异

例如: 问题:美国的首都是哪里? 预期答案:华盛顿特区是美国的首都。 实际答案:美国是华盛顿特区的首都。 答案在词汇上是相似的...

回答 1 投票 0

为什么我在 Fasttext、Longformer 和 Doc2vec 之间得到不一致的结果?

我正在使用 Doc2Vec 模型来计算网站文本数据集中观察值之间的余弦相似度。如果我改用 Fasttext(训练...

回答 1 投票 0

为未见过的文档找到最相似文档的最佳嵌入方法是什么?

假设我有一个包含大量文档的数据集。现在我想找到一种将文档表示为向量嵌入的方法。然后应该使用这种嵌入来找到最相关/相似的......

回答 1 投票 0

为长文本生成嵌入

任何人都可以帮助我使用微调模型来查找较长文本的嵌入吗?我发现模型的最大令牌长度为 512。我还发现 Longformer 和 Bigbird 可能需要......

回答 0 投票 0

如何遍历 doc2vec 模型?

我已经建立了一个 Doc2Vec 模型,并且正在尝试获取我所有测试集的向量(176 个点)。下面的代码我一次只能看到一个向量。我希望能够做到“clean_corpus[404:...

回答 0 投票 0

有什么方法可以让我在doc2vec中得到每段的等价向量列表?

有没有办法让我看到每个段落的向量,而不是每个词汇的向量,用doc2vec. 通过使用model.wv.vectors,我得到了每个单词的所有向量。现在,我需要的是......。

回答 1 投票 0

FileNotFoundError.[WinError 2]从s3加载模型时,系统无法找到指定的文件。[WinError 2] 系统在从s3加载模型时找不到指定的文件。

我最近用joblib把一个模型保存到了s3中,model_doc是模型对象 import subprocess import joblib save_d2v_to_s3_current_doc2vec_model(model_doc, "doc2vec_model") def ...

回答 1 投票 0

提高DOC2VEC Gensim效率

我正在尝试在带标签的文档上训练Gensim Doc2Vec模型。我大约有4000000个文档。以下是我的代码:将pandas作为pd导入从nltk.corpus导入多处理从...

回答 1 投票 1

与Gensim Doc2Vec最不相似

most_similar方法找到前N个最相似的词。有没有找到N个最不相似的单词的方法或方法?

回答 1 投票 0

无论如何都可以多次训练doc2vec模型

我不知道如何使用doc2vec批量训练模型。由于我将所有数据加载到ram中,因此无法加载它#从gensim.models.doc2vec import Doc2Vec导入所有依赖项,...

回答 1 投票 0

ModuleNotFoundError:没有名为'numpy.random._pickle'的模块

我有一个doc2vec模型来驱动我的推荐应用程序。我已经建立了doc2vec模型并保存到s3存储桶中。现在,当我打开webapp时,应该从s3重新加载模型,但这不是...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.