自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我想对预训练的 BERT 模型进行微调。 但是,我的任务使用特定领域内的数据(例如生物医学数据)。 此外,我的数据也采用与英语不同的语言(比如 D...
我尝试建立一个用于中文多标签文本分类任务的模型,但该模型的性能不够好(大约60%的准确率),我来寻求帮助以了解如何增强它。 我
给定一个由症状和器官组成的文本,有没有办法检测哪个器官引起了症状?
假设我有下面给出的文本: 胸部计算机断层扫描 (CT) 检测到,一名乘客出现劳力性呼吸困难,并且乘坐侧普遍存在双侧胸腔积液。 在这里,症状不...
加载自定义微调模型时如何修复错误“OSError: <model> 似乎没有名为 config.json 的文件。”?
前言 我是实施 NLP 模型的新手。我已成功使用 QLORA 微调 LLaMA 3-8B 变体并将其上传到 HuggingFace。 这些目录充满了这些文件: - .
我正在研究基于方面的情感分析,并发现了这个不错的包 - PyABSA。 我发现版本 2 存在模型未加载的问题,因此我使用版本 1。 那...
为什么加载 AutoTokenizer 需要这么多 RAM?
我正在测量我的脚本使用的 RAM,令我惊讶的是它需要大约 300Mb 的 RAM,而分词器文件本身大约为 9MB。这是为什么? 我试过: 从变压器导入
OpenLLAMA 3B V2 模型上的 DPO 训练问题:推理期间响应“抱歉,我无法回答该问题”
说明: 我目前正在开展一个项目,涉及使用 Hugging Face 的 TRL 库进行直接偏好优化 (DPO) 训练。目标是协调 OpenLLAMA 3B 的响应...
如何删除 Power BI 中的 Power Query 编辑器中的停用词
我已将带有评论的 Excel 文件加载到 Power BI Desktop 中。我想对文件进行情感分析。我已经将评论栏(名为 Column3)中的所有内容都转为小写并删除了
我正在开展一个项目,涉及两个与食物相关的数据集之间的映射。一个数据集是法语,另一个是英语。两个数据集都有一个“食物名称”字段,但我......
我正在尝试在R中训练随机森林模型,数据是尺寸为502x5477的矩阵。 代码很简单: 随机森林模型 <- train(target ~ ., data = matrix, method = “rf”,
为什么Seq2SeqTrainer在使用T5时评估时会产生错误?
按照此处的教程进行操作。我尝试使其适应我的数据集。 但是,我注意到在评估期间 Seq2SeqTrainer 调用了compute_metrics 3次。 第一次就通过了正确的
我尝试安装 spacy==2.3.5 作为简历分析程序。遇到用 pip 子进程安装构建依赖项没有运行成功的错误。 使用Python 3.12.3 它还给出了 E053
使用 gensim 下载器时,Fasttext 预训练模型不会生成 OOV 词向量
在尝试使用迄今为止发现的所有 fasttext 库(在 Windows 11 上的 Jupyter 和 Anaconda3 中)时,我遇到了很多麻烦,但这个问题主要是关于 gensim 的实现...
我有一个短语列表和一个语料库,它是一串包含数百万单词的文本。对于我的短语列表中的每个短语,我想查找并记录在语料库中找到的最相似的短语...
我有一个短语列表和一个语料库,它是一串包含数百万单词的文本。对于我的短语列表中的每个短语,我想查找并记录在语料库中找到的最相似的短语...
我有一个 Excel 文件(input.xlsx),其中包含两列(id 和 url)。 我对所有网址进行了网页抓取,并对文本进行了文本分析。 我有计算位置的函数...
用于将职位名称映射到标准化角色的推荐 NLP 技术和模型是什么?
我工作的一小部分涉及获取客户的员工数据集,并根据角色的头衔、层次结构中的假定职位将他们的职位映射到标准化头衔列表...
我正在尝试使用 vLLM 运行 gemma-2b 模型(就像此链接 https://docs.vllm.ai/en/latest/models/supported_models.html 中一样)。起初,我尝试使用 bf 以 gemma 的默认设置运行...
当我尝试在 Google Colab 上 !pip 安装 texthero 时,发生以下错误,因此我无法导入 texthero。 pip安装代码 !pip 安装 texthero pip install 后出现错误的结果消息
为什么我们不能只使用Keys来计算self-attention?
我正在阅读有关自我注意机制的内容,论文建议需要计算 3 个东西:Key、Query 和 Value。据我了解,具有价值的原因是允许调整......