Python NLTK FreqDist-列出频率大于1000的单词

问题描述 投票:0回答:1

我正在尝试输出出现在令牌中的每个单词超过1000次(> 1000),并将其保存到freq1000。

freq1000 = []

newtokens = []

for words in tokens:
    newtokens += words
FreqDist(newtokens)

fd_1 = FreqDist(newtokens)

for i in set(fd_1):
    if fd_1.count(i) == >1000:
        print(i)

这是我当前的代码,在此之后我完全被卡住了,我不确定是否可以使用freqdist函数来提供帮助。我已成功将FreqDist保存到fd_1。我只是不确定如何获取出现超过1000次的单词的输出并将其保存到freq1000。

非常感谢您能提供的帮助。

python pandas nltk
1个回答
0
投票

您可以使用freqDist.items()如下所示基于频率计数来过滤单词:

list(filter(lambda x: x[1]>=1000, fd_1.items()))

希望有帮助:)

© www.soinside.com 2019 - 2024. All rights reserved.