语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。
我想使用 Sklearn 的 CountVectorizer 打印出语料库中每个文档的单词列表(即词袋)及其各自的术语频率(以文本格式)。我怎么会痛...
如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中
我目前正在使用 tm 包进行一些文本挖掘。我希望能够将我的文档术语矩阵导出为数据框,并附加我的语料库元数据(id 变量等)。这是我的当前...
我使用从 nltk 下载了一些数据集 导入nltk 导入nltk.语料库 nltk.download() 现在我想列出所有下载的数据集 我不知道怎么办。
我的语料库中的查询遇到问题。我需要找到的是所有前面和后面都没有空格的点的实例,例如 a.a b.b c.c.我发现...
所以我尝试使用 ggpattern 包在 R 中可视化我的数据。问题是我似乎无法使用指南功能编辑图例的标题。在我进一步讨论之前,让我先...
我按照这个示例使用 Ubuntu 语料库训练我的聊天机器人 我的代码是下一个: # 导入聊天机器人 从聊天机器人导入 ChatBot # 导入训练器 从 chatterbot.trainers 导入
我有一个语料库(tm包),包含1.300个不同文本文档的集合[内容:文档:1.300]。 我现在的目标是搜索每个单词列表中特定单词列表的频率
如果我有一个文本,例如包含加泰罗尼亚语报纸的文章,我如何从该文本中找到所有城市? 我一直在查看 python 的 nltk 包,并且我有
将数据框转换为语料库的问题 您好,我有一个包含 4 列的 df(1 是文本,其他三列是一些附加信息)。 我想将 df 转换成语料库,以便文本 ...
我试图在 Notepadqq(不是 Notepad++)的文本文件的每一行中删除每个字符,包括特定的文本字符串,并且正在寻找一种方法来自动化 ðis 任务。我有...
我对不同的 Python 库和用于测量文本距离/相似性的算法进行了一些研究:Levenshtein 距离、Jaro-Wrinkler、Hamming 等。到目前为止,似乎...
语料库 = [] pstem = PorterStemmer() 对于范围内的我(data_train['text'].shape[0]): #去掉不需要的词 tweet = re.sub("[^a-zA-Z]", ' ', data_train['text'][i]) #Transform 我...
追溯(最后一次通话): 文件“C:\Users\Welcome\Desktop\Mridula\Vs
使用 R 的 tm 包,VectorSource 生成列表而不是语料库
下面的代码... 图书馆(TM) 文本向量 <- c("twas brillig and the slithey toves", "did gyre and gimble in the wabes") names(vectorOfText) <- c...
如何从一个语料库中随机选择段落,从随机化中排除那些包含特定单词列表的段落?
我有一个语料库。我想从这个语料库中随机提取段落。然而,随机化练习必须是这样的,即不能对带有特定单词的段落进行抽样。这是一个 ...
我想测量两个语料库的相似度。我目前尝试过的相似度检查有以下几种。贾卡德相似度 Dice's系数 Spearman's rank correlation coefficient Chi2 test...
如何使用 "pip install -r requirements.txt "通过 "requirements.txt "下载NLTK体例?
你可以通过命令行下载NLTK体例的punkt和wordnet: python3 -m nltk.downloader punkt wordnet 如何通过requirements.txt下载NLTK体例,使用pip install -r requirements...。
我正在根据大学/学院名称的词典来使数据集中的教育数据保持一致。如何针对字典运行代码并获得所需的输出?数据包括...
在语料库“ tkn_pb”中,我想删除所有单词,除了我选择的某些关键字(例如,“ attack”和“ gunman”)。可以这样做吗?
OSError:[WinError 193]%1不是有效的Win32应用程序-nltk
所以,我一直收到此错误:OSError:[WinError 193]%1不是有效的Win32应用程序,我认为这是由于我的环境变量所致。因此,我已修复该问题,但仍会继续出现错误。...