比较多个自然语言语料库的最佳方法是什么？

Question

我一直在为一个研究项目（使用 Gensim 和 python）做自然语言叙述报告的 LDA 主题模型。我有几个小型语料库（每个语料库有 1400 到 200 个文档 - 我知道，这很小！），我想进行比较，但除了查看每个 LDA 模型（例如使用 pyLDAviz）之外，我不知道如何做到这一点。我的学术背景不是CS，而且我对NLP还是有点陌生。

跨语料库/主题模型比较主题有哪些好方法？例如，是否可以估计两个 LDA 模型的重叠程度？或者还有其他方法来评估多个语料库的主题相似度吗？

预先感谢您的帮助！

Answer 1

加入一个大语料库中的语料库，用你认为合适的参数做一个主题模型，然后比较主题在子语料库中的分布情况。

这是我所知道的唯一干净的方法。请注意，在所有其他参数固定的情况下，不同的随机种子会产生不同的主题模型；不存在语料库的主题模型。

一个示例（其中子语料库是科学论文发表的不同年份）可以在此摘要中找到（完整引用：

@InProceedings{fankhauser-etal2016,
Title                    = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author                   = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle                = {Proceedings of DH  2016},
Year                     = {2016},
Address                  = {Krakow, Poland},
Month                    = {July 12-16},
url                      = {http://dh2016.adho.org/abstracts/322},
}

）。

Answer 2

最近的一篇论文对几个指标进行了系统比较：

https://arxiv.org/abs/2211.16259

比较多个自然语言语料库的最佳方法是什么？

问题描述投票：0回答：2

2个回答

最新问题

比较多个自然语言语料库的最佳方法是什么？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2