我正在尝试输出出现在令牌中的每个单词超过1000次(> 1000),并将其保存到freq1000。
freq1000 = []
newtokens = []
for words in tokens:
newtokens += words
FreqDist(newtokens)
fd_1 = FreqDist(newtokens)
for i in set(fd_1):
if fd_1.count(i) == >1000:
print(i)
这是我当前的代码,在此之后我完全被卡住了,我不确定是否可以使用freqdist函数来提供帮助。我已成功将FreqDist保存到fd_1。我只是不确定如何获取出现超过1000次的单词的输出并将其保存到freq1000。
非常感谢您能提供的帮助。
您可以使用freqDist.items()
如下所示基于频率计数来过滤单词:
list(filter(lambda x: x[1]>=1000, fd_1.items()))
希望有帮助:)