自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
多年来,我一直在使用自己的类似贝叶斯方法,根据大型且不断更新的训练数据集对来自外部来源的新项目进行分类。 分类可分为三种
我正在尝试在 Windows-11 操作系统中的命令提示符(以管理员身份运行)中使用“pip install -U spacy”来安装 spacy 库,但它显示了一些我不明白的错误。我正在使用Python 3.13.0...
我想创建一个聊天机器人,它可以生成预定义的多项选择答案,如下图所示,就像是/否答案一样。 在此输入图像描述 经过互联网上的一些研究,我可以...
我想创建聊天机器人,它可以生成预定义的多项选择答案,如下图所示,就像是/否答案一样。 在此输入图像描述 但经过一些互联网研究后,我...
如何从文档语料库/数据框列中的预先列出的一元语法中获取单词的二元语法/三元语法
我有一个数据框,其中一列中有文本。 我列出了一些需要分析的预定义关键字以及与之相关的单词(稍后制作词云和发生次数计数器......
我有以下代码,用于识别用于正确预测测试数据集中文本的最有影响力的单词 将 pandas 导入为 pd 进口火炬 从 torch.utils.data 导入
我有包含 1000 个文本行的数据框。 我做了TfidfVectorizer。 现在我想创建一个新字段,它给出每个句子到我想要的单词的距离,让我们说单词“king&q...
当训练期间的序列长度与推理期间的序列长度不同时,TransformerEncoder 的性能较差
给出(这600将用于推理): X_infer 张量,形状为 (num_window, window_len) -> (1, 600) y_infer 张量,形状为 (num_window, window_len) -> (1, 600) 沃卡...
如何使用 HuggingFace 和 Langchain 的指定模型以很少的镜头方法解析简历?
尝试使用以下代码解析简历时出现模型选择混乱和一些错误 尝试使用 google flan t5 基本模型进行一些镜头提示 这样做的同时,我得到了...
给定一个通用文本句子(在特定上下文中),如何使用 python 和任何 NLP 库提取属于特定“类别”的感兴趣的单词/实体? 例如给定...
文本字符串: text = ‘左转,走楼梯和电梯之间的门。右转进入走廊。 期望输出: splitted_sentences= [‘左转’,‘从楼梯和电梯之间的门...
我想使用 Llama-3.2-1B-Instruct 模型,虽然我设置了“温度”:0.0,“top_p”:0.0 和“top_k”:0,但它仍然会产生不一致的输出。这就是我的
所以我有一些文本数据被凌乱地解析,因此我得到的名称与实际数据混合在一起。是否有任何类型的包/库可以帮助识别单词是名称还是......
使用 RAG 和 Llama3 构建自定义表数据库的聊天机器人
我正在开发一个项目,使用检索增强生成(RAG)和 Llama3(1B 模型)创建一个聊天机器人。聊天机器人需要与以表格形式构建的自定义数据库进行交互...
解决以下问题的最佳方法是什么?我正在使用本质上相似的汽车分类列表示例来给出一个想法。 问题:从给定文本中提取数据元组。 这里是
我有一组文字报纸广告,我想提取信息,例如正在出售的商品及其价格。这些广告不遵循任何结构化格式。我可以访问数千个这样的广告。
我正在尝试使用希腊文本训练一个新的标记生成器,以便稍后使用以下命令将新标记添加到 Llama 3.1 标记生成器中 tokenizer.add_tokens(列表(new_tokens))。 然而,在训练字节对编码后...
所以我目前正在进行一个项目,我们收到了 25 种不同的发票类型,全部都是扫描的。最终目标是从发票中提取文本和表格数据,然后最终解析...
我正在尝试对用例进行情感分析。大多数时候,它会给出正确的结果,但在某些情况下,即使是积极的评论也会被标记为消极的。我该如何修复我的设备...
使用 AWS 服务执行 python 脚本,使用 keyBERT 从文本中提取关键字?
我有一个简单的Python脚本,给定两个文本块,然后使用keyBERT从中提取关键字,然后比较关键字列表以将它们排序为两个列表,具体取决于...