我建立了一个主题模型,其中:
为了找到最佳主题数量,我想计算模型的一致性。然而,我只知道
Gensim
的Coherencemodel
,这似乎需要Gensim模型作为输入。
还有其他包/实现可以用来计算计算主题模型的一致性吗?或者,如果确实可以在不输入 LDA 模型的情况下使用
Coherencemodel
,有人可以告诉我该怎么做吗?
实际上,您可以使用 Gensim 软件包来做到这一点。
input_data = 带有标记化文本的列表列表
topics = 每个主题包含前 N 个单词的列表
import gensim.corpora as corpora
from gensim.models.coherencemodel import CoherenceModel
id2word = corpora.Dictionary(input_data)
corpus = [id2word.doc2bow(text) for text in input_data]
cm = CoherenceModel(
topics=topics,
texts=input_data,
corpus=corpus,
dictionary=id2word,
coherence='c_v')
coherence = cm.get_coherence()