word2vec 相关问题

该工具提供了用于计算单词的矢量表示的连续词袋和跳过 - 克结构的有效实现。这些表示随后可用于许多自然语言处理应用程序和进一步研究。

如何在spark集群环境下高效训练word2vec模型?

我想在我的 Spark 集群上训练有关 10G 新闻语料库的 word2vec 模型。 以下是我的spark集群的配置: 一名师傅和四名工人 每个都有80G内存和24个核心 然而...

回答 2 投票 0

训练一个工业级Word2Vec需要多少样本

我对训练 CBOW Word2Vec 的工业强度版本(从头开始)感兴趣,它可以实现与 Google 预训练嵌入类似的性能。 从头开始意味着不使用 Gensi...

回答 1 投票 0

Spark Word2Vec 如何合并每个分区的结果?

增加 Spark 的 Word2Vec 的 numPartitions 使其速度更快,但准确性较低,因为它单独适合每个分区,从而在合并结果之前减少了每个单词可用的上下文。 如何

回答 1 投票 0

将 gensim word2vec 转换为二进制格式时出现 EOFError

我在txt中有一个word2vec格式的预训练嵌入。我加载了它,然后将其保存到.bin。但我无法将此嵌入加载为 EOFError:输入意外结束;计数不正确或...

回答 1 投票 0

使用在维基百科上预先训练的Word2Vec模型

我需要使用 gensim 来获取单词的向量表示,我认为最好使用的是在英语维基百科语料库上预先训练的 word2vec 模块。有谁知道哪里...

回答 2 投票 0

如何从内部没有.bin文件的zip文件加载word2vec模型?

尝试这个项目:webvectors 这段代码工作正常 nlpl_zip="C:/180.zip" 使用 zipfile.ZipFile(nlpl_zip, "r") 作为存档: 流 = archive.open("model.bin") ...

回答 1 投票 0

word2vec 中 CBOW 和 Skipgram 梯度的区别?

为什么在 CBOW 中更新时会考虑大于或小于 MAX_EXP 的 f 值,而在 Skipgram 中会被忽略? 我专门研究了 word2 的 Google 实现...

回答 1 投票 0

使用单标记和二元标记进行语料库预处理的最佳方法?

我想知道是否有关于解决此问题的最明智方法的一般建议。 我正在使用 word2vec 来确定规范之间的相似度分数(这是我感兴趣的最终输出)...

回答 1 投票 0

n_init 和 OMP_NUM_THREADS 警告

C:\ProgramData naconda3\Lib\site-packages\sklear

回答 0 投票 0

KMeans Algo 中的未来警告和用户警告

C:\ProgramData naconda3\Lib\site-packages\sklear

回答 0 投票 0

为组织名称生成向量嵌入

我见过几个可以生成公司名称嵌入的 Word2Vec 模型,并且在给出相同公司名称的不同格式时表现良好。 但我想做的只是一点点

回答 1 投票 0

在 K 均值中使用 Elbow 曲线求 K 的可靠性如何?

所以我尝试使用 Elbow 曲线来找到 K 均值聚类中最佳“K”(簇数)的值。 对文本列的平均向量(使用 Word2Vec)进行聚类...

回答 2 投票 0

将句子转换为嵌入表示

如果我有一句话,例如:“离开这里” 我想使用 word2vec Embed。来代表它..我发现了三种不同的方法来做到这一点: 1-对于每个单词,我们计算其嵌入向量的 AVG...

回答 2 投票 0

是否可以对像 vec2word 这样的预训练词嵌入模型进行微调?

我正在我的搜索引擎系统中进行语义匹配。我看到词嵌入可以用于此任务。然而,我的数据集非常有限而且很小,所以我不认为训练一个单词

回答 1 投票 0

word2vec 无法使用 gensim 库工作

我正在尝试使用 gensim 提供的 word2vec 模型对我的数据集进行矢量化。我面临着 scipy 提出的错误。 从 gensim.models 导入 Word2Vec 从 nltk.tokenize 导入 word_tokenize 导入...

回答 1 投票 0

使用word2vec对类别中的单词进行分类

背景 我有带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称)。 ['约翰','杰伊','丹','内森','鲍勃'] -> '名字' ['黄色', '红色', '绿色'] -> '科罗拉多州...

回答 3 投票 0

Word2Vec Hierarchical Softmax 中的内部顶点里面有什么?

我有一个关于分层 Softmax 的问题。实际上,我不太明白内部顶点(不是叶顶点)中存储的内容。我清楚地理解了这个算法的主要思想...

回答 1 投票 0

如何使用gensim使用deepset的词嵌入预训练模型?

我试图理解 word2vec,并决定尝试一下德语 word2vec 模型。然后我找到了 deepset 的关于他们预训练模型的页面,但我不明白如何使用......

回答 4 投票 0

余弦相似度的输出不符合预期

我正在尝试生成句子中两个单词之间的余弦相似度。这句话是“黑猫坐在沙发上,棕色狗睡在地毯上”。 我的Python代码如下...

回答 1 投票 0

如何在word2vec(使用tensorflow)中处理复合名词(动物名)?

有人对如何使用包含复合名词和非复合名词的语料库使用w2v(使用tensorflow而不是gensim)有任何建议吗?特别是关于动物名称(英语...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.