nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

如何分离Python字符串中的文本和代码?

我在Python中遇到了一个问题。我有一个包含消息和代码的字符串,我需要将它们分开并将它们传递给不同的函数。一个例子: 文本=“”“ C...

回答 1 投票 0

如何获取OpenNLP模型的训练数据集?

我正在使用以下 OpenNLP 模型: en-parser-chunking.bin 恩纳人.bin 内位置.bin 内部组织.bin 我想将我的数据附加到训练数据集中,这些数据集...

回答 2 投票 0

如何使用 spaCy 猜测一般语言使用中引理或词形的频率? [已关闭]

我使用 spaCy 实现了一个文本分析工具包,分为 2 个级别: A.顶层实现更高层的功能加交互web Django 中的视图; B.底层,直接链接...

回答 1 投票 0

不同长度文本的KV缓存

我正在尝试使用一些 kv 缓存技巧进行一些结构化文本提取。对于此示例,我将使用以下模型和数据: model_name = "Qwen/Qwen2.5-0.5B-指令" 型号 =

回答 1 投票 0

比较多个自然语言语料库的最佳方法是什么?

我一直在为一个研究项目做自然语言叙述报告的LDA主题模型(使用Gensim和Python)。我有几个小型语料库(每个语料库有 1400 到 200 个文档 - 我知道,那...

回答 2 投票 0

在词云中实现 tf-idf

我在像下面的 df_unis 这样的数据框中有一些对一些大学的谷歌评论。列 uni_name 包含大学名称。我希望分别为每所大学创建词云...

回答 1 投票 0

NLTK 条件频率分布与聚合

我正在尝试编写一个 NLTK ConditionalFreqDist,其中包含一些基于 fileid 中的数据的聚合字段。基本上,我有一个包含 DATE-TITLE 格式的 fileid 的文档语料库,例如......

回答 1 投票 0

余弦相似度的几何可视化

我通过使用Python中的TF-IDF向量化以非常基本的方式计算了两个文档之间的余弦相似度。 但我想将文档可视化为 3D 空间中的矢量化图......

回答 1 投票 0

如何获取BERT句子嵌入向量?

我正在使用 bert-for-tf2 模块,以便将 BERT 模型包装为 Tensorflow 2.0 中的 Keras 层。我已按照您的指南将 BERT 模型实现为 Keras 层。 我正在尝试提取嵌入......

回答 1 投票 0

如何使用 Transformers 从 Hugging Face 加载 4 位量化 VLM 模型?

我是量化和使用视觉语言模型 (VLM) 的新手。我正在尝试使用 Transformers 库从 Hugging Face 加载 Ovis1.6-Gemma 模型的 4 位量化版本。我

回答 1 投票 0

word2vec 下载时间太长

Windows10,IDLE,以下代码的下载时间太长。 导入 gensim.downloader 作为 api word_vec_list = api.load('word2vec-google-news-300') 有没有可能我下载的比较少...

回答 1 投票 0

NLP疾病检测

我正在开展一个项目,其目标是从不同的句子中检测疾病名称 我需要一些建议 我正在寻找可以获取疾病名称列表的图书馆...

回答 1 投票 0

为什么即使代码运行没有错误,Spacy 也不执行训练管道?

我正在使用 Spacy 版本 3.5.0 使用一些虚拟数据训练自定义 NER 模型。下面给出了我的整个代码和虚拟数据。这与此链接的第二部分中给出的代码完全相同。代码是

回答 1 投票 0

变压器错误:运行时错误:无法导入变压器.training_args

我正在尝试在构建聊天机器人的任务中使用变压器 从变压器导入 AutoModelForSeq2SeqLM、AutoTokenizer、GenerationConfig、TrainingArguments、训练器 进口火炬 导入时间 ...

回答 1 投票 0

类型错误:“假设”需要预先标记化的假设(Iterable[str]):

我正在尝试计算以下内容的 Meteor 分数: 打印(nltk.translate.meteor_score.meteor_score( [“这是一个苹果”,“那是一个苹果”],“这个苹果......

回答 3 投票 0

如何从简短的纯文本描述中导出属性/标签? (NER,法学硕士,?)

如何从简短的纯文本描述中导出属性/标签? (NER,法学硕士,?) 我有简短的产品描述,我想将其转换为结构化属性。 例子: 输入: “拉莱西亚亚

回答 1 投票 0

Trainer Huggingface - RuntimeError:无法固定“torch.cuda.FloatTensor”,只能固定密集的 CPU 张量

我最近遇到以下错误: RuntimeError:无法固定“torch.cuda.FloatTensor”,只能固定密集的CPU张量 在小型法学硕士上做 LoRA 时。 我在discord上看到有人说: 这是...

回答 1 投票 0

如何调整分词器的性能?

使用 Hugging Face 变压器库中的分词器。分词器在大多数情况下工作正常,但在某些情况下却不能。 我想知道我是否可以“调整”(不是训练......

回答 1 投票 0

由于改变批量大小的填充而导致嵌入变暗

我想训练一个简单的神经网络,它以 embedding_dim 作为参数: 类 BoolQNN(nn.Module): def __init__(self, embedding_dim): 超级(BoolQNN,自我).__init__() 选择...

回答 1 投票 0

如何使用 BERT 模型制作 t-sne 图

我有两个文本分类模型 https://huggingface.co/samanjoy2/banglaclickbert_finetuned_sequence_classification_clickbait https://huggingface.co/samanjoy2/

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.