将变形词减少到词干的过程。
我使用lucene雪球分析仪进行干预。结果不是有意义的话。我提到了这个问题。其中一个解决方案是使用包含...之间的映射的数据库。
我正在尝试预处理单词以删除常见的前缀,如“un”和“re”,但是所有nltk的常见词干都似乎完全忽略了前缀:来自nltk.stem import PorterStemmer,...
我正在尝试使用stemCompletion将词干转换成完整的单词。以下是我使用txt的代码
我有这样的txt文件:单词,23个单词,2个测试,1个测试,4我希望它们看起来像这样:单词,23个单词,2个测试,1个测试,4个我想能够拿一个Python中的txt文件和...
如何使用Stemmer或Lemmatizer来阻止特定的单词
我目前正试图阻止一个大的语料库(aprox。800k句子)。我设法阻止了基本的一个。现在的问题是我只想阻止一个特定的单词,例如这个方法只...