计算非gensim主题模型的一致性

Question

我建立了一个主题模型，其中：

输入：标记化列表的列表
输出：一个m x t矩阵（每个单元格表示单词i出现在主题k中的概率）。
输出：一个 k x n 矩阵（每个单元格表示文档 j 中主题 k 的概率）。

为了找到最佳主题数量，我想计算模型的一致性。然而，我只知道

Gensim

的

Coherencemodel

，这似乎需要Gensim模型作为输入。

还有其他包/实现可以用来计算计算主题模型的一致性吗？或者，如果确实可以在不输入 LDA 模型的情况下使用

Coherencemodel

，有人可以告诉我该怎么做吗？

Answer 1

实际上，您可以使用 Gensim 软件包来做到这一点。

input_data = 带有标记化文本的列表列表

topics = 每个主题包含前 N 个单词的列表

import gensim.corpora as corpora
from gensim.models.coherencemodel import CoherenceModel

id2word = corpora.Dictionary(input_data)
corpus = [id2word.doc2bow(text) for text in input_data]

cm = CoherenceModel(
    topics=topics,
    texts=input_data,
    corpus=corpus,
    dictionary=id2word,
    coherence='c_v')
coherence = cm.get_coherence()

计算非gensim主题模型的一致性

问题描述投票：0回答：1

1个回答

最新问题

计算非gensim主题模型的一致性

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1