将Word嵌入与来自LDA的主题词分发相结合,用于文本摘要

问题描述 投票:-1回答:1

我是NLP的新手,我想知道通过考虑从Word2Vec检索到的Word嵌入和已经使用的主题词分布来总结已经通过LDA等方法分类到某个主题的文档是否是个好主意生成后,想出一个句子评分算法。这听起来像是创建文档摘要的好方法吗?

nlp word2vec lda summarization
1个回答
0
投票

我想建议你这个post

您可以使用GoogleFacebook中预先训练好的Word2Vec模型(检查FastTest文档,了解如何解析第二个模型或选择其他语言),而不是在步骤4中使用Skip-Thought Encoder。

通常,您将有以下步骤:

  1. 文字清理(删除数字,但留下标点符号)。
  2. 语言检测(定义和删除停用词,并使用适当版本的Word2Vec模型)。
  3. 句子标记化(之后你可以删除标点符号)。
  4. 令牌编码(选择Word2Vec模型)。
  5. 使用Kmeans聚类获得的令牌(您应该指定聚类的数量 - 它将等于将来摘要中的句子数量)。
  6. 获取摘要(摘要的一个句子是一个群集的中间句子,看起来是原始帖子以获取更多详细信息和代码示例)。

我希望它会有所帮助。祝好运! :)

© www.soinside.com 2019 - 2024. All rights reserved.