我的语料库很大,我想为整个语料库中的所有术语创建一个相关矩阵。我可以使用以下代码找到语料库中任何给定单词的相关性:
findAssocs(corp_dtm, terms = "serachword", corlimit = 0.01)
但是我想使用相关性作为权重绘制此数据,因此我需要一个具有所有相关性的矩阵。有没有简单的方法可以做到这一点?
hello world my name is liam
hello 1 .3 .04 .21 .88 .00
world .3 1
my .04 1
name .21 1
is .88 1
liam .00 1
类似,但全部填写。
谢谢!
据我所知,稀疏矩阵没有相关函数。因此,您需要先将稀疏矩阵转换为普通矩阵。请参阅下面的代码行。
但是我建议您这样做,因为这将首先创建一个密集的矩阵,并且如果文档术语矩阵甚至稍大,您很有可能会遇到内存问题。您已经指出了这种情况。
cor_matrix <- cor(as.matrix(corp_dtm))