自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我对 NLP 很陌生......有没有任何 API 或方法可以让我从句子中识别动词、形容词或副词? 我在项目中需要它吗?
我正在研究可汗学院的练习框架,更具体地说,是应用题。 在做应用题练习时,学生经常会遇到同样的应用题,只是数字和名字......
Transformers // 根据之前交易的序列预测下一个交易 // Sequence2One 任务
我们正在解决以下任务。 我们公司有一系列的活动,例如 数据: 1000 美元 / 橙子 / 上午 11 点 500$ / 洗车 / 下午 3:00 15$ / 鲜花 / 晚上 9 点 任务: 任务是 - 预测下一步
Jupyter Lab 内核在启动 trainer.train() 之前就死掉了
正在微调 phi-3.5-mini,当尝试运行 trainer.train() 时,我收到以下错误: ***** 跑步训练 ***** 示例数量 = 647 历元数 = 3 瞬时...
当使用解析器或核心 NLP 中的任何注释时,有没有办法访问概率或误差幅度? 为了将我的问题放在上下文中,我试图理解......
从非结构化医疗笔记中提取复杂变量而不依赖预定义关键字的最佳 NLP 方法
我正在致力于从电子健康记录中的非结构化患者笔记中提取结构化数据。我一直在使用 SpaCy 的命名实体识别模型和实体标尺(来定义我的d...
我想为文本制作一个分类器,进一步用于建议给定文本最相似的文本。 该应用程序的流程如下: 使用...
所以我一直在尝试 bert_score 来做一些指标,在测试它时我发现它为一些完全不相关的句子给了我一些非常高的分数。 例如我尝试过这个: 参考=...
如何在 Huggingface 中重新初始化 Mistral 模型的权重?
来自如何以官方方式将 Hugging Face LLaMA v2 模型的权重重新初始化为原始模型?和 https://discuss.huggingface.co/t/how-does-one-reinitialize-the-weights-of-a-h...
LLaMA 3.1 使用 QLoRA 进行微调 - CUDA 内存不足错误
我正在尝试使用 QLoRA 技术,借助来自 Hugging Face 的心理健康对话数据集的 4 位 bitandbytes 库来微调 LLaMA 3.1 80 亿个参数模型。
如何使用预训练的BERT词嵌入向量来微调(初始化)其他网络?
当我使用 textcnn 进行分类工作时,我有使用 Word2Vec 和 fasttext 等预训练词嵌入来微调 textcnn 的经验。我使用这个过程: 创建嵌入...
使用colab时没有这样的文件或目录'nltk_data/corpora/stopwords/English'
首先,我使用 Google colab 进行工作, 我已经下载了英语的 nltk 停用词,内容如下: nltk.download('停用词') 下载成功 [nltk_data] 正在下载
我正在尝试使用 spaCy 从文本列表中仅提取第一个发言者的姓名。目前,我的函数返回所有“PER”标签,但我想减少开销并仅获取 fi...
使用 python 包将句子从第一人称重写为第三人称,反之亦然
python中是否有任何包可以从人的角度重写大量内容,即第一人称到第三人称和第三人称到第一人称 我昨天吃了苹果 他吃了苹果是的...
使用量化和 AMP 微调预训练模型:缩放器错误“尝试取消缩放 FP16 梯度”
我正在尝试使用有限的 VRAM 来微调预训练模型。为了实现这一目标,我使用量化和自动混合精度 (AMP)。然而,我遇到了一个我似乎无法解决的问题
我正在努力寻找一种方法来按部分拆分我拥有的法律文件集。我一直在尝试使用正则表达式来做到这一点,虽然我已经相当接近了,但我想看看是否有一个 w...
如何在keras中使用predict_generator预测无标签文本数据?
我正在尝试使用predict_generator对我的NPL模型进行预测,我的测试数据没有Y变量。我的目的是预测未来文本的标签。我已经尝试过“Y_test=None”...
我使用下面的代码从 YouTube 视频中提取字幕,但它仅适用于英文视频。我有一些西班牙语视频,所以我想知道如何修改代码以扩展...