自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我正在尝试使用希腊文本训练一个新的标记生成器,以便稍后使用以下命令将新标记添加到 Llama 3.1 标记生成器中 tokenizer.add_tokens(列表(new_tokens))。 然而,在训练字节对编码后...
所以我目前正在进行一个项目,我们收到了 25 种不同的发票类型,全部都是扫描的。最终目标是从发票中提取文本和表格数据,然后最终解析...
我正在尝试对用例进行情感分析。大多数时候,它会给出正确的结果,但在某些情况下,即使是积极的评论也会被标记为消极的。我该如何修复我的设备...
使用 AWS 服务执行 python 脚本,使用 keyBERT 从文本中提取关键字?
我有一个简单的Python脚本,给定两个文本块,然后使用keyBERT从中提取关键字,然后比较关键字列表以将它们排序为两个列表,具体取决于...
我有一个使用波特词干算法来索引文本的应用程序。我很惊讶地发现该算法并没有将一个国家的名称与一个国家的形容词具有相同的词根。对于
何时在 Huggingface Transformers tokenizer 中设置 `add_special_tokens=False`?
这是在 Hugging Face“transformers”库中设置 tokenizer 的默认方式: 从转换器导入 BertForSequenceClassification,BertTokenizer tokenizer=BertTokenizer.
使用 Tensorflow 在低资源语言和葡萄牙语之间进行机器翻译的语言模型
我正在尝试使用 Tensorflow 训练一种用于低资源语言和葡萄牙语之间机器翻译的语言模型。不幸的是,我收到以下错误: PS C:\Users\myuser\
在 BERT 编码器块中的多头注意力层之后,是在每个令牌的嵌入上单独完成层归一化(即每个令牌嵌入一个均值和方差),或者在
我正在清理我的文本数据,然后想将其保存到 csv。定义的清理函数工作正常,但是当 to_csv() 部分出现时,问题也随之而来。 也许有人遇到过类似的情况
我正在尝试使用 HuggingFace 的 BartModel 架构从头开始训练翻译模型。我正在使用 ByteLevelBPETokenizer 来标记事物。 我面临的问题是,当我保存...
我正在使用问答数据集 UCLNLP/adversarial_qa。 从数据集导入load_dataset ds = load_dataset("UCLNLP/adversarial_qa", "adversarialQA") 如何绘制地图
处理短文本中的多个候选实体,以使用 SciSpacy 进行实体链接
我正在研究项目中使用 SciSpacy 将短文本链接到生物医学知识图谱 (UMLS CUI) 中的实体。目标是分析链接实体之间的关系...
如何在多个 Python 进程之间共享复杂的 spaCy NLP 模型以最大限度地减少内存使用?
我正在开发一个多处理Python应用程序,其中多个进程需要访问大型的、预加载的spaCy NLP模型(例如en_core_web_lg)。由于该模型是内存密集型的,我想要
在 R 中使用 ChatGPT API 调用自定义助手时出现错误 404
为了分析句子,我训练了一个 ChatGPT 助手,我从 R 函数调用它来对句子进行分类: 图书馆(openai) 系统.setenv( OPENAI_API_KEY = 'XXXXXXXXXXXXXXXXXX' )
文本分类+NLP+数据挖掘+数据科学:在应用tf-idf之前我应该停止词删除和词干提取吗?
我正在研究文本分类问题。问题解释如下: 我有一个事件数据集,其中包含三列 - 事件名称、事件描述、
使用 Curiosity-AI/Catalyst 查找动词的词根形式
我正在尝试找到动词的词根形式。我通过管道运行文本,并且可以识别与 PartOfSpeech.VERB 匹配的所有标记,但我不知道如何从那里继续。 这就是我所拥有的...
我想实现 Good-Turing 平滑方法,这将改善我的语言模型。 让我们从理论开始(为简单起见,考虑一元模型)。 有一个语料库(例如精简版...
是否可以使用 Candle 从 NV-Embed 获取嵌入?
我想做的是一个输出任意输入嵌入的 CLI 程序。 为此,我想使用嵌入模型进行推理,我选择了 NV-Embed-v2。我选择的框架是...
荷兰情绪分析 RobBERTje 仅输出正/负标签,缺少中性标签
当我运行荷兰情绪分析 RobBERTje 时,它仅输出正/负标签,数据中缺少中性标签。 https://huggingface.co/DTAI-KULeuven/robbert-v2-dutch-sentiment 那里...
Path_To_Connection 使用Officer和docxtractor将docx文件读入R时出错
我有来自法律数据库的数百个“.docx”格式的文档。我正在尝试对文档进行一些 NLP 工作,但似乎无法超过 0。不想发布测试文档,因为...