我需要验证处理从二元测量(例如 PMI)返回的二元停用词的总体方法。为什么要处理这些停用词?好吧,它们是噪音,超过某一点不会增加任何额外价值。
我已经看到了几个如何使用 bigram_measures 的具体示例。然而,我想知道什么时候最好在清理数据、扩展、词形还原/词干提取等整个过程中删除停用词。
是的,我使用的语料库足够大。我记得你的语料库的大小也会影响 bigram_measures 结果的质量。
根据这篇文章中接受的答案(NLTK - 计算二元组的频率),在语料库上使用 PMI 或其他二元组测量后,似乎可以删除停用词。
“想象一下,如果过滤搭配只是删除它们,那么有许多概率度量,例如似然比或 PMI 本身(计算一个单词相对于语料库中其他单词的概率),在删除其中的单词后,它们将无法正常工作。给定语料库中的随机位置。通过从给定的单词列表中删除一些搭配,许多潜在的功能和计算将被禁用......”
因此,我认为最好的流程是:
这是处理与有价值的二元词混合的二元停用词的正确整体方法吗?
在进行了额外的研究后,我将在下面提出答案。
一种方法是: - 清理文本 - 扩大收缩 - 词形还原 - 删除停用词 - 运行 PMI 或其他度量来对 n 元语法进行评分。
来源:使用 Python 进行文本分析,第 224 页。
我提供上述来源的目的是为了表明我从哪里收到这个答案,而不是提供一些毫无根据的答案。如果版主认为这是“推荐”,那么我会将其删除。