自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
Python,使用pdfplumber、pdfminer包从pdf中提取文本,粗体字符重复
目标:提取中文财务报告文本 实现:Python pdfplumber/pdfminer 包提取PDF文本到txt 问题:对于粗体 PDF 文本,txt 中相应的提取文本重复
使用以下代码在色度数据库中上传文档块时 - 使用 tqdm(total = len(dataset["train"])) 作为 pbar: 对于数据集 [“train”] 中的 i: 尝试: doc = 文档...
在我们的软件中,我们必须分析纯文本文件。首先,我们应该将文本分成段落,然后分成句子,然后分成标记。最后的步骤(据我所知)是词干和
在二元分类任务中,LM(数亿个参数)如何击败LLM(十亿个参数)?有可能吗还是我在微调时犯了错误?
前言 我正在尝试微调基于变压器的模型(LM 和 LLM)。我使用的LM是DEBERTA,LLM是LLaMA 3。任务是对文本是否包含居高临下的语言进行分类...
我有两个变压器网络。第一个每个注意力有 3 个头,总共 15 层,第二个每层有 5 个头,总共 30 层。给定一组任意文档(2048 个标记...
请建议将文本转换为过去时态的最佳方法。 我尝试将 spacy 与“en_core_web_sm”模型一起使用,但效率不是很高。 文本 - 文本=“t的主要目的...
我正在使用 Ollama 和 llama 3 构建 ChatBot。但是,现在它无法记住聊天记录。例如,如果我的第一个查询是“告诉我相对论”,并且如果我...
运行 Python Mallet/Gibb 的采样作为软聚类方法来确定主题的最佳数量时结果不一致
抱歉,但我对 Mallet 缺乏经验,需要一些帮助。我目前正在尝试使用 Mallet 作为一种软聚类技术来为包含......的给定术语集分配组成员身份
我正在尝试使用flask构建一个API,它将从给定的url中提取文本并为该文本生成有效的标签。举例来说,文本是咖喱鸡的食谱,有效标签可以...
Alexa 技能需要填充两个插槽,但是即使在请求中填充两个插槽,技能仍然会单独请求它们
我正在构建一项测试 Alexa 技能,以协助购买产品。它需要产品名称和要购买的单位数量。这些插槽已按要求设置
我正在构建一个 LSTM 模型,以使用 OWID 数据集预测未来的 covid 19 病例总数 我使用 6 列的多元系列,包括日期列, 问题是我全为零
使用数据集库加载 SQuAD 数据集时出现 FileNotFoundError
我正在尝试使用 Python 中的数据集库加载 SQuAD 数据集,但遇到 FileNotFoundError。这是我正在使用的代码: 从数据集导入load_dataset 数据集 =
是否有现成的英语语法可以加载并在 NLTK 中使用?我搜索了使用 NLTK 解析的示例,但似乎我必须在之前手动指定语法
请考虑帖子末尾的代表。 它的工作原理是 https://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-usecase-postagging-lemmatising.html 它提取了一个se...
在哪里可以找到讲座视频以及文字记录和笔记的数据集?我有一个机器学习项目需要这些,但我似乎找不到任何现有的 lect 数据集...
在传统的信息检索系统中,我们使用布尔查询来生成与该查询匹配的结果集。 给定一组已知的类似文档,人们称之为“任务”是什么......
我在网上搜索了bi-gram和unigram文本特征的提取,但仍然没有找到有用的信息,有人可以告诉我它们之间有什么区别吗? 例如,如果...
Accuracy_score 在不同分类器方法中具有相同的值
我正在 Google Colab 上做一个项目,使用 LIAR 数据集对假新闻进行分类。我正在运行三个不同的特征提取器(TF-IDF、DistilBERT 和 LLAMA 2)和七个分类器(
NLTK RegEx Chunker 未使用通配符捕获定义的语法模式
我正在尝试使用 NLTK 的 POS 标签作为正则表达式来对句子进行分块。定义了 2 条规则来根据句子中单词的标签来识别短语。 主要是,我想捕捉...
我将介绍一下项目环境,以便您了解一些背景信息来帮助我。 我正在尝试解析 pdf 格式的德国组织结构图信息。对吧...