语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。
我是Python-NLTK的新手。我已经使用电影评论数据集编写了代码。当我将硬编码的示例文本用于情感分析时,它工作正常,但是当我尝试接受用户输入或获取...
阅读txt中的中文时出错:corpus()仅适用于字符,语料库,语料库,data.frame,kwic对象
我尝试使用R,jiebaR和语料库生成一个词云并获取中文语音的词频,但无法生成语料库。这是我的代码:library(jiebaR)library(stringr)library(corpus)...
我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本,将它们存储在语料库上,进行了某种清理,但是...
我如何确定语料库中的哪些文本包含Python中的NLTK套件生成的错误?
我正在尝试使用Python进行一些基本的语料库分析。我收到以下错误消息:追溯(最近一次呼叫最近):文件“”,行2,在打印中(len(poems.words(...
在基于gensim文件的培训中表示包含多个句子的文档的正确方法
这些算法实现对实际句子没有任何真正的了解或依赖。他们只接受文本-单词标记。
我有一堆带有文本数据行的数据框。我从每个数据框中导入了一个列,并将其附加到列表中,如下所示:将pandas导入为pd import glob path ='filepath'#使用您的...
我的语料库很大,我想为整个语料库中的所有术语创建一个相关矩阵。我可以使用以下代码找到语料库中任何给定单词的相关性:...
我有一个包含213个文档的语料库,这些文档的长度各不相同。我的目的是从每个文档中提取一个特定的文本部分,该文本涉及“财政政策”。使我的尝试复杂的是...
除了nltk附带的语料库,我还想用自己的语料库训练它,该语料库遵循相同的语音规则。如何找到它正在使用的语料库,以及如何添加自己的语料库...
如何在Python语料库上使用“ collocation_list”函数?
我是Python的新手,请尝试导入我自己的语料库以在其文本中查找搭配词。我正在使用Python 3.7.5。并遵循Bird,Klein和Loper的教科书指示。但是,当我尝试...
Python NLP:从自然语言字符串中删除奇怪单词/字符的有效方法
我正在处理许多包含自然语言的字符串。例如:s1 =“早上好先生r,请发送早间短信wa x x种类詹妮弗·哈迪目录玛丽广告庄园西t f ...
我正在尝试将我的语料库转换回一个数据框,但它仅返回NA。请帮助代码:library(wordcloud)df
我正在使用德语的spacy模型来提取命名实体,例如位置名称,人员名称和公司名称,但没有得到正确的结果作为输出。是否缺少任何内容...
(如何选择语料库的所有“内容”,而不只是特定的[[1]]或[[2]]等?
我想选择所有语料库内容作为一个整体进行分析,而不是一次进行分析,我该如何更改此代码?尝试一次选择一个,但是要分析70个文档,我想...
[在艾哈迈达巴德R /刑事上诉书编号1的古贾拉特高级法院检查以下文字。 2009年第251号文件,用于批准和签名:尊敬的RPDHOLARIA先生========================== ...
一个月前我问过这个问题。然而,没有人给出答案甚至评论。我正在重复这个问题,以便有人会帮助这一次。我有一个很大的Unicode Monolingual ...
我在python中运行tfidf模型。 texts = [** tokenized words **] dictionary = corpora.Dictionary(texts)corpus = list(map(dictionary.doc2bow,texts))test_model = models.TfidfModel(corpus)corpus_tfidf = ...
我已经看过这里发布的其他类似问题(像这样),但问题仍然存在。我有一个文本数据的数据框,我需要阻止它。所以我把它转换成......