自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我有一个使用波特词干算法来索引文本的应用程序。我很惊讶地发现该算法并没有将一个国家的名称与一个国家的形容词具有相同的词根。对于
何时在 Huggingface Transformers tokenizer 中设置 `add_special_tokens=False`?
这是在 Hugging Face“transformers”库中设置 tokenizer 的默认方式: 从转换器导入 BertForSequenceClassification,BertTokenizer tokenizer=BertTokenizer.
使用 Tensorflow 在低资源语言和葡萄牙语之间进行机器翻译的语言模型
我正在尝试使用 Tensorflow 训练一种用于低资源语言和葡萄牙语之间机器翻译的语言模型。不幸的是,我收到以下错误: PS C:\Users\myuser\
在 BERT 编码器块中的多头注意力层之后,是在每个令牌的嵌入上单独完成层归一化(即每个令牌嵌入一个均值和方差),或者在
我正在清理我的文本数据,然后想将其保存到 csv。定义的清理函数工作正常,但是当 to_csv() 部分出现时,问题也随之而来。 也许有人遇到过类似的情况
我正在尝试使用 HuggingFace 的 BartModel 架构从头开始训练翻译模型。我正在使用 ByteLevelBPETokenizer 来标记事物。 我面临的问题是,当我保存...
我正在使用问答数据集 UCLNLP/adversarial_qa。 从数据集导入load_dataset ds = load_dataset("UCLNLP/adversarial_qa", "adversarialQA") 如何绘制地图
处理短文本中的多个候选实体,以使用 SciSpacy 进行实体链接
我正在研究项目中使用 SciSpacy 将短文本链接到生物医学知识图谱 (UMLS CUI) 中的实体。目标是分析链接实体之间的关系...
如何在多个 Python 进程之间共享复杂的 spaCy NLP 模型以最大限度地减少内存使用?
我正在开发一个多处理Python应用程序,其中多个进程需要访问大型的、预加载的spaCy NLP模型(例如en_core_web_lg)。由于该模型是内存密集型的,我想要
在 R 中使用 ChatGPT API 调用自定义助手时出现错误 404
为了分析句子,我训练了一个 ChatGPT 助手,我从 R 函数调用它来对句子进行分类: 图书馆(openai) 系统.setenv( OPENAI_API_KEY = 'XXXXXXXXXXXXXXXXXX' )
文本分类+NLP+数据挖掘+数据科学:在应用tf-idf之前我应该停止词删除和词干提取吗?
我正在研究文本分类问题。问题解释如下: 我有一个事件数据集,其中包含三列 - 事件名称、事件描述、
使用 Curiosity-AI/Catalyst 查找动词的词根形式
我正在尝试找到动词的词根形式。我通过管道运行文本,并且可以识别与 PartOfSpeech.VERB 匹配的所有标记,但我不知道如何从那里继续。 这就是我所拥有的...
我想实现 Good-Turing 平滑方法,这将改善我的语言模型。 让我们从理论开始(为简单起见,考虑一元模型)。 有一个语料库(例如精简版...
是否可以使用 Candle 从 NV-Embed 获取嵌入?
我想做的是一个输出任意输入嵌入的 CLI 程序。 为此,我想使用嵌入模型进行推理,我选择了 NV-Embed-v2。我选择的框架是...
荷兰情绪分析 RobBERTje 仅输出正/负标签,缺少中性标签
当我运行荷兰情绪分析 RobBERTje 时,它仅输出正/负标签,数据中缺少中性标签。 https://huggingface.co/DTAI-KULeuven/robbert-v2-dutch-sentiment 那里...
Path_To_Connection 使用Officer和docxtractor将docx文件读入R时出错
我有来自法律数据库的数百个“.docx”格式的文档。我正在尝试对文档进行一些 NLP 工作,但似乎无法超过 0。不想发布测试文档,因为...
我在Python中遇到了一个问题。我有一个包含消息和代码的字符串,我需要将它们分开并将它们传递给不同的函数。一个例子: 文本=“”“ C...
我正在使用以下 OpenNLP 模型: en-parser-chunking.bin 恩纳人.bin 内位置.bin 内部组织.bin 我想将我的数据附加到训练数据集中,这些数据集...
如何使用 spaCy 猜测一般语言使用中引理或词形的频率? [已关闭]
我使用 spaCy 实现了一个文本分析工具包,分为 2 个级别: A.顶层实现更高层的功能加交互web Django 中的视图; B.底层,直接链接...
我正在尝试使用一些 kv 缓存技巧进行一些结构化文本提取。对于此示例,我将使用以下模型和数据: model_name = "Qwen/Qwen2.5-0.5B-指令" 型号 =