假设我使用
构建了 BERTopic 模型from bertopic import BERTopic
topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20)
topics, probs = topic_model.fit_transform(docs)
检查
probs
只为 docs
中的每个项目提供一个值。
probs
array([0.51914467, 0. , 0. , ..., 1. , 1. ,
1. ])
我想要所有主题的整个概率向量(因此在本例中,
nr_topics=20
,我想要docs
中每个项目的 20 个概率向量)。换句话说,如果我在 docs
和 K 个主题中有 N 个项目,我想要一个 NxK 输出。
对于每个文档中的单个主题概率,您需要再添加一个参数。
topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20, calculate_probabilities=True)
注意:此calculate_probabilities = True仅在您使用
HDBSCAN
聚类嵌入模型时才有效。 Bertopic 默认使用 all-MiniLM-L6-v2
。
官方文档:https://maartengr.github.io/BERTopic/api/bertopic.html
他们在文件中也提到了同样的事情。