检查 BERTopic 模型的所有概率

Question

假设我使用

构建了 BERTopic 模型

from bertopic import BERTopic
topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20)
topics, probs = topic_model.fit_transform(docs)

检查

probs

只为

docs

中的每个项目提供一个值。

probs
array([0.51914467, 0.        , 0.        , ..., 1.        , 1.        ,
       1.        ])

我想要所有主题的整个概率向量（因此在本例中，

nr_topics=20

，我想要

docs

中每个项目的 20 个概率向量）。换句话说，如果我在

docs

和 K 个主题中有 N 个项目，我想要一个 NxK 输出。

Answer 1

对于每个文档中的单个主题概率，您需要再添加一个参数。

topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20, calculate_probabilities=True)

注意：此calculate_probabilities = True仅在您使用

HDBSCAN

聚类嵌入模型时才有效。 Bertopic 默认使用

all-MiniLM-L6-v2

。

他们在文件中也提到了同样的事情。