自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
如何从huggingface load_dataset加载一定百分比的数据
我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 空间有限,我无法下载/加载该数据集,即笔记本崩溃。 所以...
所以,我有一个关于客户服务的 csv 文件(比如他们打电话的原因)。我想提取关键词并将其可视化。但仔细想想,我意识到我应该提取关键短语......
OpenAIEmbeddings() 是如何工作的?它是否为整个文本语料库创建大小为 1536 的单个向量?
我正在使用 OpenAI 的 OpenAIEmbeddings() 类,它使用 text-embedding-3-small 模型。根据文档,它为任何输入文本生成 1536 维向量。 嗬...
spacy doc.char_span 每当字符串中有任何数字时都会引发错误
我试图从 spacy 训练一个模型。我将字符串及其标记偏移量保存到 JSON 文件中。 我已使用 utf-8 编码读取该文件,其中没有特殊字符。但它
由于版权原因,我需要从报纸文章中提取姓名、性别、职位和雇主/公司名称,并在本地硬件(不允许云)上运行该过程。 我玩过
我有两个张量名称:“wy”和“x”,它们的大小都是 8: wy= 张量([[ 74.2090, -92.9444, 45.2677, -38.4132, -39.8641, -6.9193, 67.4830, -80.1534]],grad_fn=) ...
我正在尝试使用 spacy 在 Python 中执行一些 nlp 操作。只是为了一些背景知识,我在带有 Intel UHD 显卡的 Windows PC 上运行(所以没有 cuda)。 我尝试安装 pytorc 的 cpu 形式...
我做了一个快速实验来检查苹果自然语言框架中词形还原的准确性,结果很差。 我想知道我是否做错了什么或者框架是否......
在 Transformer 模型中,可变长度的序列通常会填充到批次中的最大长度。但是,如果我的序列长度差异很大,则该批次可能包含大量...
我正在使用 SciSpaCy 的实体链接器和自定义知识库。当我更新应用程序的一些组件时(例如底层语言模型、句子标记化管道、知识......
我将 NLTK 升级到最新版本,在导入 nltk 时,出现以下错误 导入nltk 文件“C:\ProgramData\Anaconda2\lib\site-packages ltk ag\sequential.py”,第 210 行 print("[受过训练
我想从网站中提取所有信息,包括其内部链接,以便阻止该网站的聊天机器人。我该怎么做? 我已经废弃了 http 之类的主站点...
`mlflow.transformers.log_model()` 未完成
问题 我想使用 mlflow.transformers.log_model() 来记录微调的拥抱模型。 然而,当 mlflow.transformers.log_model 方法运行时,它根本没有完成 - 运行下去......
在从pdf文件中提取文本时,是否可以从pdf文件中排除页面页脚和页眉的内容。因为这些内容是最不重要的并且几乎是多余的。 注意:对于
我想使用 NLP 来填充文本中的掩码单词,但我不想从所有可能的单词中进行选择,而是想找到两个候选单词中更有可能出现的单词。例如,假设我有一个
我已经使用 GPT-2 针对我的数据集训练了我的模型。它已经过训练并给出正确的输出。现在,我想在更多数据上训练我的模型,同时保留之前训练的模型。我...
模式中具有可选后缀的 SpaCy Matcher 会报告同一文本的多个匹配项
使用以下匹配器规则: {'标签':'R-1', 'pattern': [{'TEXT': 'MyLabel'}, {'TEXT': ':', 'OP': '?'}], '贪婪':'最长',} 关于文本:“MyLabel:一些价值” 我得到两个匹配项:“MyLab...
我正在开始使用人工智能聊天机器人,但不知道从哪里开始。 我的想象是这样的: 什么都不知道的空聊天机器人 学习用户何时提出问题以及机器人是否有问题
我试图在 UCI 垃圾邮件消息数据集上运行一些 nltk 函数,但遇到了 word_tokenize 即使在下载依赖项后也无法工作的问题。 导入nltk nltk.download('punkt'...
我正在使用以下数据集并尝试在循环神经网络上进行二进制文本分类。当前的问题是,即使经过大约 15 个 epoch,该模型似乎也无法学习......