可能是关键概念吗?

问题描述 投票:0回答:2

我正在处理R中的文本挖掘,使用tm库。我知道如何提取关键字,但我想提取文档中经常“在一起”的单词的关联(例如,获取表达式proof of concepthydraulic jack)。

我知道有findAssocsfunction,但是如果你想知道与特定单词相关的单词,它似乎只是相关...我想自动检测“链接在一起的单词串联”。

这是用tm库做这个的方法吗?或者在R上以任何其他方式?

提前致谢

编辑:使用Quantedapackage,尤其是fcmfunction,我收到一个错误(请参阅enter image description here)。该函数说它需要一个数据帧,但DFis已经是...)

r tm
2个回答
2
投票

您正在寻找的术语是共现。

我知道有两个可以帮助你的软件包。

  • quantedafcm函数创建稀疏特征共生矩阵
  • 包qazxsw poi:qazxsw poi函数创建一个共现数据框,表示每个术语与另一个术语共同出现的次数。

根据您的需要选择其中一个。

edit based on op's edit

你的DF不是udpipe对象。它看起来像data.frame。 cooccurence具有将data.frame转换为dfm以在tidytext中使用的功能。

dfm

1
投票

对于udpipe R包。有一个小插图可以处理这个问题:quanteda

© www.soinside.com 2019 - 2024. All rights reserved.