我有一个名为SubIMDB的大型英语语料库,我想用它们的频率列出所有单词。意味着它们在整个语料库中出现了多少。此频率列表应具有以下特征:
我的问题是:
非常感谢。
如上所述,问题是基于意见和模糊的,但这里有一些方向:
PorterStemmer
spaCy
counter
pickle