H2O Word2Vec不一致的向量

问题描述 投票:0回答:1

我对一个特定主题有一个普遍的问题。

我使用Word2Vec生成的向量作为功能提供到我的分布式随机森林模型中,用于对某些记录进行分类。我有数百万条记录,并且每天都会收到新的记录。由于新记录的出现,我希望使用与先前记录相同的矢量模型对新记录进行编码。意思是“AT”这个词现在和将来都是同一个载体。我知道Word2Vec使用随机种子来生成语料库中单词的向量,但我想关闭它。我需要设置种子,这样如果我今天在数据的一部分上训练模型,然后再对未来的相同数据进行训练,我希望它为每个单词生成具有完全相同向量的相同模型。生成新模型然后编码的问题在于,编码这些记录需要花费大量时间,然后我的DRF模型用于分类不再有任何好处,因为单词的向量已经改变。所以我必须重新训练一个新的DRF。通常这不会是一个问题,因为我可以只训练一个模型然后永远使用它;但我知道一个好的做法是在常规上更新你的包。这是h2o的一个问题,因为一旦更新,就不能与以前版本生成的模型进行向后比较。

有没有关于如何在python中为h2o设置Word2Vec模型种子的资料?我使用的是Python版本3和h2o版本3.18

python word2vec h2o
1个回答
1
投票

h2o-3中的word2vec使用hogwild实现 - 模型参数从多个线程同时更新,并且无法保证此实现中的可重复性。

你的文本语料库有多大?以模型训练减速为代价,您可以获得可重复的结果,限制算法仅使用单个线程(h2o启动参数-nthread)。

© www.soinside.com 2019 - 2024. All rights reserved.