Natural Language Toolkit是一个用于计算语言学的Python库。
当使用 nltk 软件包对阿拉伯文进行标记时,结果显示为数字!在对英文文本进行标记时没有问题。当使用 nltk 包来标记阿拉伯文文本时,结果显示为数字!而标记英文文本时则没有问题。UnicodeDecodeError: 'ascii' codec can't decode byte 0xd8 in ...
我有一个脚本,主要是为自然语言工具箱工作。它的工作原理是使用NLTK对单个单词进行标记和标签(分类)。当我的列表包括名称和实体时,它...
如何使用 "pip install -r requirements.txt "通过 "requirements.txt "下载NLTK体例?
你可以通过命令行下载NLTK体例的punkt和wordnet: python3 -m nltk.downloader punkt wordnet 如何通过requirements.txt下载NLTK体例,使用pip install -r requirements...。
比方说,我有一个由评论列组成的数据集,每个评论正好有100个词,那么训练我的模型可能很容易,因为我可以简单地将每个评论的100个词标记化......。
我正在玩WordNet,试图解决一个NLP任务。我想知道是否存在任何方法来获得属于一些大型集合的单词列表,例如 "动物"(即狗、猫、牛等)、"......"。
我有2个词,比方说电脑和工具。计算机是一个具体的名词,而工具则相对抽象。我想得到每个词的抽象程度,以反映这一点。我以为 ...
我如何从一个URL中解析一个文本,并将干净的文本放在一个数据框中?
我有一个包含147篇多伦多星报新闻文章的Excel文件,我已经将这些文章编译并创建了一个数据框架。我还写了一个Python脚本,可以一次从一篇文章中提取文本。然而,我...
我是类比数据,我有句子一个在每一行的例子PhraseCleaned 0得到房子的业务分布销售外屋的机会1业务改变办公室文化工作......
如何在NLTK中对bigram语言模型进行词级的Kneser-Ney平滑处理?
从ltk包中,我看到我们可以只用三角图来实现Kneser-Ney平滑,但是当我试图在bigrams上使用同样的函数时,它却抛出了错误。有沒有方法可以在......上實現平滑化?
python: 在文本数据中,如果下一行与上一行的匹配模式相同,则将下一行与上一行进行分组(合并)。
我有一个文件.txt,其中的数据组(AAA-(n))非常大。文件中的许多行在AAA-(n)至AAA-(n+1)行之间有相同的标签(例如AB)。我想把它们放在一行中。...
我试图将文本输入到我的文字处理器中,先分割成句子,再分割成单词。一段例子。当这一击被重复的时候,再加上幼稚的告诫... ...
当通过 pandas.groupby.agg 循环一个单词时,如何忽略它的其他实例?
我有一个代码(见下图),用来匹配每个位置的单词出现次数。我的问题是,它读取了这个词的所有实例。例如:这就是我希望它做的,但代码......。
在下面的列表中,其实有两个重复的句子。但是由于句子的第二个词和()之间的空格不同,它将它们视为唯一的句子。通过使用Python - 正则表达式,如何...
在数据框架中使用RegexpTokenizer拆分句子 [重复] 。
我试图将数据框输入到我的文字处理器中,先分割成句子,再分割成单词。一个示例文本。当打击被重复时,再加上幼稚的句子告诫,... ...
我刚刚开始开发一个非常简单的程序,得到一个txt文件,并根据它告诉你拼写错误的单词。我查了一下什么会是最好的程序,我读到NLTK和使用'...
我有一个文本文件,里面有一些句子。假设有三个句子 "Rahul从市场上退了出来","我们要去市场","市场上所有的商店都关门了"。现在我需要...
我想从project gutenberg的url中访问一个文本文件。因此,我从ltk书中复制了同样的代码,结果却不一样。 from urllib import request url = "http:/www.gutenberg.org..."。
如何在 python 数据框架中比较两列中的 tokenise 词?
我有一个CSV文件,其中有一个IT事件的记录.我有一个 "摘要 "列和一个 "类别 "列,我为这一列中的每一行都生成了tokenize字,我想比较token在 ...
我有一个包含文本和类别的数据框架。我想统计这些类别中常见的词。我正在使用 nltk 来删除停止的单词并标记化,但是无法包含 ...