我正在使用Python NLTK软件包从我的语料库中生成2克和3克。但是我找不到NLTK如何从语料库生成它们。
我在这里找到了这个:An Introduction to N-grams: What Are They and Why Do We Need Them?,但我想知道是否还有其他算法可以找到n-gram。 NLTK是否使用本文中的算法查找n-gram?
和以往一样,非常感谢。
您可以使用zip将成对的/三元组/ n个长度的单词序列作为元组迭代。
for s in sentences:
for w1, w2 in zip(s, s[1:]):
bigram = w1, w2