我正在使用示例文本探索 nltk 的功能(如果有)。当我使用 nltk.text.Text over text4 的方法制作
dispersion_plot
时,即使我输入包含其他语言的单词的单词列表或简单的不是单词的字符串,结果图显示好像这些单词有多个文本中出现的情况。
我导入了一些基本的 nltk 模块并尝试探索它们是如何工作的。
#Importing
import nltk
nltk.download('all')
from nltk.book import *
但是当我尝试做一个
dispersion_plot
,这是类的一种方法(我认为这是正确的术语)nltk.text.Text
时,我得到了一个奇怪的情节,显示了我确信文本中没有的单词的出现。 nltk.book
有 9 个示例文本,因此我使用 text4
来制作词汇分散图。我给它一个单词列表作为参数,最后我放了一个不存在的单词,比如 "asfasfasaf"
。但是,如果我的列表包含 "bonjour"
或 "tacos"
或任何其他字符串等单词,则会发生以下相同的行为。
text4.dispersion_plot(["citizens", 'democracy', "freedom", "duties", "America", "war","asfasfasaf"])
显然
"asfasfasaf"
这个词并没有出现在被称为“就职演说语料库”的text4
中。那么,为什么像“asfasfasaf”这样的词在整个文本长度上都会出现蓝色勾号?