自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我将从多个 PDF 文件中提取文本。 PDF文件包括文本和一些图像,甚至有些页面是扫描页面(我假设扫描页面就像图像)。我遵循了...
我正在研究文本分类任务,并决定使用 PyTorch 模型来实现此目的。该过程主要包括以下步骤: 加载并处理文本。 使用 TF-IDF 矢量...
我目前正在处理顾客对丝芙兰产品的评论数据。我的任务是将它们分类为情绪:消极、中性、积极。 文本预处理的常见技术是...
我最近阅读了有关 BERT 的内容,并想使用 BertForMaskedLM 来完成 fill_mask 任务。我了解 BERT 架构。另外,据我所知,BertForMaskedLM 是由 BERT 构建的,具有语言建模
我有一组句子,我已使用 SBERT 嵌入将其转换为向量。我想对这些向量进行聚类。 当我在网上寻找信息时,我不断看到帖子告诉我要做什么......
我认为它不是严格的BPE(字节对编码),但有类似的想法应用于字符串。 假设字典里有三个中文单词(我会使用像
我正在尝试构建模型来预测帖子喜欢,该模型采用文本和内容类型,这是一个热门编码列。 我制作了一个 TensorFlow 数据集,但是当尝试拟合模型时,我得到了这个
我正在尝试构建模型来预测帖子喜欢,该模型采用文本和内容类型,这是一个热门编码列。 我制作了一个 TensorFlow 数据集,但是当尝试拟合模型时,我得到了这个
unstructured.document.html 中出现 ModuleNotFound 错误
我正在执行这段代码 从 unstructed.documents.html 导入 HTMLDocument # 加载你的 HTML 文件 html_file_path = 'UBER_2019.html' doc = HTMLDocument.from_file(html_file_path) # 提取文本 ...
我正在使用酒店评论数据集构建用于情感分析的 LSTM 模型。但是,每次运行代码时,模型总是返回空的输出和参数。 我已经关注我了...
如何在 GPU 而不是 RAM 上处理此 Python 代码的数据?
我目前正在使用以下代码来处理音频数据,但它在 RAM 上运行。我想将处理任务转移到 GPU 以提高性能。 我的代码: def 准备数据集(批量): 一个...
无法从“huggingface_hub”导入名称“split_torch_state_dict_into_shards”
我已经使用 LLAMA 2 进行研究几个月了,我导入如下: 从 Transformer 导入 AutoModelForCausalLM、AutoTokenizer 设备 = torch.device("cuda") 分词器 =
如何解决从 Hugging Face 导入 LLAMA 2 时出现的错误?
我已经使用 LLAMA 2 进行研究几个月了,我导入如下: 从 Transformer 导入 AutoModelForCausalLM、AutoTokenizer 设备 = torch.device("cuda") 分词器 =
为什么我无法使用库“wn_editor”(Python)将新单词添加到WordNet中?
(Python)我现在坚持使用“wn_editor”编辑WordNet词典。它在每个词典中都会保留这样的错误(“odenet”除外)。 ……的文件很少
我想在langchain中使用tavilly实现一个搜索引擎链。该链将用户的查询作为输入并返回最多 5 个相关文档。每个检索到的文档必须包含...
我目前正在制作有关变形金刚的 Jupyter 笔记本。在位置编码部分,我想证明 Transformer 完全依赖位置编码来理解...
如何从huggingface load_dataset加载一定百分比的数据
我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 空间有限,我无法下载/加载该数据集,即笔记本崩溃。 所以...
所以,我有一个关于客户服务的 csv 文件(比如他们打电话的原因)。我想提取关键词并将其可视化。但仔细想想,我意识到我应该提取关键短语......
OpenAIEmbeddings() 是如何工作的?它是否为整个文本语料库创建大小为 1536 的单个向量?
我正在使用 OpenAI 的 OpenAIEmbeddings() 类,它使用 text-embedding-3-small 模型。根据文档,它为任何输入文本生成 1536 维向量。 嗬...
spacy doc.char_span 每当字符串中有任何数字时都会引发错误
我试图从 spacy 训练一个模型。我将字符串及其标记偏移量保存到 JSON 文件中。 我已使用 utf-8 编码读取该文件,其中没有特殊字符。但它