我正在处理R中的文本挖掘,使用tm
库。我知道如何提取关键字,但我想提取文档中经常“在一起”的单词的关联(例如,获取表达式proof of concept
或hydraulic jack
)。
我知道有findAssocs
function,但是如果你想知道与特定单词相关的单词,它似乎只是相关...我想自动检测“链接在一起的单词串联”。
这是用tm
库做这个的方法吗?或者在R上以任何其他方式?
提前致谢
编辑:使用Quanteda
package,尤其是fcm
function,我收到一个错误(请参阅)。该函数说它需要一个数据帧,但DF
is已经是...)
您正在寻找的术语是共现。
我知道有两个可以帮助你的软件包。
quanteda
:fcm
函数创建稀疏特征共生矩阵根据您的需要选择其中一个。
你的DF不是udpipe
对象。它看起来像data.frame。 cooccurence
具有将data.frame转换为dfm
以在tidytext
中使用的功能。
dfm
对于udpipe R包。有一个小插图可以处理这个问题:quanteda