nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

T5模型如何使用forward()方法代替model.generate()

对于我的用例,我需要使用 model.forward() 而不是 model.generate() 方法 即代替下面的代码 outs = model.model.generate(input_ids=batch['source_ids'], ...

回答 2 投票 0

按照 github 存储库中的说明安装 medaCy 包时出错

我想运行这个命令来安装medaCy的预测和模型训练(稳定版本): ! pip install git+https://github.com/NLPatVCU/medaCy.git 但我遇到了如图所示的错误...

回答 1 投票 0

余弦相似度的输出不符合预期

我正在尝试生成句子中两个单词之间的余弦相似度。这句话是“黑猫坐在沙发上,棕色狗睡在地毯上”。 我的Python代码如下...

回答 1 投票 0

如何加快 NLP 中停用词删除和词形还原的计算时间

作为文本分类模型预处理的一部分,我使用 NLTK 库添加了停用词删除和词形还原步骤。代码如下: 将 pandas 导入为 pd 导入nltk; nltk.do...

回答 2 投票 0

使用open ai api汇总新闻文章时出错

# 生成摘要 摘要 = 聊天(消息) 打印(摘要.内容) 这是代码 错误: 属性错误:模块“openai”没有属性“错误” 这是错误,有关如何修复它的任何帮助...

回答 1 投票 0

使用训练师课程时升级加速

我在 Google Colab 上使用 Pytorch 的 Trainer 类时遇到问题,因为它要求 accelarate>=0.21.0,即使我已经更新了所有要求,还有其他选择吗? ”

回答 1 投票 0

如何检测两个句子是否相似,不是在意思上,而是在音节/单词上?

以下是一些需要被视为“相似”的句子类型的示例 有一种最不寻常的噪音正在迅速缩小,她很快就听出了 有一个最

回答 1 投票 0

如何使用非结构化(python 包)创建目录

tl;博士 如何使用非结构化包从具有分层节标题的 pdf 文档中提取干净的目录? 更多细节 我有一个 pdf 文档,有多个...

回答 1 投票 0

将 spacy token 向量转换为文本

我正在使用 spacy 创建句子的向量。如果句子是“我正在工作”,它会给出一个形状为 (3, 300) 的向量。有什么方法可以使用这些向量取回句子中的文本...

回答 3 投票 0

如何将 tfidfvectorizer 的功能从英语修改为西班牙语

我有一个 tfidfvectorizer,它适合英语文本数据来预测英语通话的情绪。任务是将其转换为西班牙语。我想使用这个 tfidfvecto 的权重...

回答 1 投票 0

德语自动词边界检测

我有一堆德语文本,但丢失了所有空格。现在我需要执行某种单词边界检测,以从“NamensänderungimNamenderIntegration”到[“Namensände...

回答 1 投票 0

使用 openai api 创建聊天摘要

我正在创建一个 ChatSummarizer 应用程序,其中输入是带有聊天记录的 Excel 文件。 Excel 工作表的每一行对应一个新的聊天。 Summarizer 应用程序总结了 adja 中的聊天...

回答 1 投票 0

使用Python优化大文本数据集中的用户名删除[已关闭]

我正在开发一个项目,需要删除包含 510,718 个帖子的数据集中的用户名。该数据集包括 19,346 个唯一用户名。我的目标是替换...中所有出现的用户名

回答 3 投票 0

如何在双项主题建模中将主题分配给单个文档/推文?

我是这方面的新手,所以如果我在这里问显而易见的问题,我深表歉意。我运行了双项主题建模算法来对短文本数据进行建模并发现其中的主题。我正在使用 LDAvis 包

回答 1 投票 0

使用Python优化大数据集中的用户名匿名化

我正在开发一个项目,需要对包含 510,718 个帖子的数据集中的用户名进行匿名化。该数据集包括 19,346 个唯一用户名。我的目标是替换所有出现的用户名...

回答 1 投票 0

如何删除 Huggingface 的 Transformers GPT2 预训练模型中的图层?

我的代码: 从 Transformer 导入 GPT2Config、GPT2Model 从变压器导入 AutoTokenizer、AutoModelForMaskedLM、AutoModelForCausalLM 模型 = AutoModelForCausalLM.from_pretrained("openai-

回答 1 投票 0

子进程中的 Python spacy 2.3.5 安装错误

我安装spacy 2.3.5版本时遇到的错误 我运行命令 pip install spacy==2.3.5 我收到多行错误,这是错误消息的结尾 Cython.编译器.错误。

回答 1 投票 0

Swift Natural Language和CoreML:如何改进NLTagger来读取Card Holder

我正在使用自然语言框架来查找信用卡上的个人姓名。 首先,我使用 Vision 框架读取信用卡文本。然后我将它连接起来。 所以我的文本包含格式 si...

回答 1 投票 0

pandas to_csv 函数将二维数组更改为单个字符串

我正在尝试预先计算句子嵌入,我想将其存储在 csv 文件中,以便以后可以重复使用。我创建了一个 Pandas 数据框,并将嵌入正确存储为 2d a...

回答 1 投票 0

与 Gensim 相比,pyTorch 的训练时间非常长

我使用 Brown 语料库和 gensim 训练了一个 word2vec 模型,如下所示: 模型 = gensim.models.Word2Vec(brown.sents(),min_count = 5, 矢量大小 = 30,窗口 = 5,

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.