nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。

具有补充自定义词典的拼写校正器

能够在外部字典中使用python进行拼写检查的最佳系统是什么?我见过使用外部词典替换....>

回答 1 投票 0

在整个句子上应用NLP WordNetLemmatizer对具有未知pos的单词显示错误

我想在整个句子上应用NLP WordNetLemmatizer。问题是我得到一个错误:KeyError:'NNP'就像Im正在获得未知的'pos'值一样,但是我不知道为什么。我想获取基本形式...

回答 1 投票 2

如何使用经过培训的Gensim模型嵌入您的数据框(GoogleNews-vectors-negative300.bin)

我正在本教程中学习,其中有Quora的以下数据集:在这里,我已经清理并标记化了q1_clean和q1_clean列中的数据。现在我已经通过...

回答 1 投票 0

使用NLTK在Python中的条件频率分布(新手)计算语料库中的单词总数

我需要使用NLTK软件包计算某些语料库中的单词(单词出现)的数量。这是我的语料库:语料库= PlaintextCorpusReader('C:\ DeCorpus','。*')这是我尝试获取总数的方法...

回答 1 投票 1

我们可以从数据框中的字段创建一个简单的同义词库吗?

我正在尝试使用数据框而不是标准wordnet.synsets词汇数据库中的字段中的字符串来查找一个单词的同义词和反义词。我很确定这是可能的,但我不是...

回答 1 投票 0

为什么在句子上使用NLTK lemmatizer时出现TypeError:无法散列的类型?

我目前正在研究如何使句子变大,同时也应用pos_tags。到目前为止,这是我从nltk.tokenize导入nltk的内容。从nltk.corpus导入word_tokenize的内容。从nltk导入wordnet的情况。...

回答 1 投票 0

NLTK:如何从csv文件创建语料库

我有一个csv文件,如col1 col2 col3每行中一些文本someID一些值一些文本someID一些值,col1对应于整个文档的文本。我想...

回答 1 投票 1

用于匹配单词中字符的正则表达式

我正在进行Pig Latin文本转换:要求之一是将qu放在一起。我所做的是re.findall(r'^ qu',token),但仅当单词/令牌以qu开头时,它才一起接受qu If ...

回答 1 投票 0

用于使用Python匹配单词中字符的正则表达式

我正在进行Pig Latin文本转换:要求之一是将qu放在一起。我所做的是re.findall(r'^ qu',token),但仅当单词/令牌以qu开头时,它才一起接受qu If ...

回答 1 投票 0

情感分析中用户输入或文本文件数据中的问题

我是Python-NLTK的新手。我已经使用电影评论数据集编写了代码。当我将硬编码的示例文本用于情感分析时,它工作正常,但是当我尝试接受用户输入或获取...

回答 1 投票 0

我在尝试查找单词频次时遇到TypeError:无法散列的类型:'list'

[我在尝试这段代码时遇到TypeError:无法散列的类型:'list':从nltk导入FreqDist fd = FreqDist()token_words = data ['tweet_split']。apply(lambda tweet:tweet.split() )...

回答 1 投票 1

基于其他列标记文本并在数据框中计数

我需要标记数据,但看起来确实令人困惑。我有这样的数据:TEXT作者Date这是Cat Jane 1.01.1997这是Dog Sara ...

回答 1 投票 0

如何导航nltk.tree.Tree?

我使用以下语法对句子进行了分块:grammar ='''NP:...

回答 4 投票 23

如何使用spacy或nltk检索句子的主要意图?

我有一个用例,我想使用spacy或nltk或任何NLP库来提取句子的主要有意义部分。例句1:“我如何提高对骚扰的声音”意图会...

回答 1 投票 -1

从python消息列表中找到最频繁的单词对

我有100条消息的列表。而且我能够找到邮件列表中使用频率最高的单词。但我想找到最常出现的一对单词。例如,按键和键盘...

回答 1 投票 0

如何在python库nltk中计算gutenburg语料库中的单词覆盖率?

计算与文本语 料库gutenberg关联的所有文件ID的字覆盖率。这是什么写代码,从nltk.corpus导入nltk从十进制导入gutenburg导入十进制...

回答 1 投票 0

将额外的数字特征合并到文本分类模型中

我修改了github上的一些Python代码,以使用以下代码对一部分消费者投诉数据进行逻辑回归,文本向量化和分类部分可以正常工作。但是...

回答 1 投票 0

解析大型文本文档,仅保留“帐号”和特定的关键字(“市场价值”)

我有一个大型文本文档(〜20000行),其正文看起来像这样:发票帐户/名称:0234523454 / XYZCORPORATIONS费用组资产组合费用日期我们/您的参考安全性...

回答 1 投票 0

如何标记单词并将其输入到另一个文件中?

我只能获取停用词以在文档中实现,然后创建一个新文件,并删除停用词。我无法获得单词标记化,搬运工或发送标记化处理的信息。 import io ...

回答 2 投票 0

通过自定义指标进行句子聚类

我有一个政治主张的数据集,我想按相似性将它们分组。我已经开发了一种相似性函数,该函数使用一些正则表达式的组合进行信息提取,快速文本...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.