text-classification 相关问题

简单地说,文本分类就是将一段文本放入一组(主要是预定义的)类别中。这是许多现实世界应用中出现的最重要问题之一。例如,文本分类的一个示例是自动呼叫中心,其希望将投诉自动分类到最合适的问题桶中。

AI模型推理的最低系统要求

我如何确定运行 pytorch 模型推理的最低系统要求以避免内存不足(OOM)? 例如,我有一个微调的文本分类模型(“sentiment_mod...

回答 1 投票 0

为什么我的火车测试比例无法达到 99:1?我的测试集的大小真的很重要吗?

我一直在训练 Spacy textcat 管道组件以用于多标签文本分类。当我训练和更新模型时,我一直在不断减小测试集的大小,因为我的

回答 0 投票 0

为什么神经网络需要词嵌入?

当我们使用词嵌入对文档进行向量化时,为什么需要神经网络来进行文本分类?如果词嵌入捕获了单词/文档的含义,那么为什么我们不能只使用 cos...

回答 0 投票 0

Transformer 模型进行文本分类的准确性较低

我正在运行一个使用 Transformer 模型进行葡萄牙语文本分类的脚本。 问题是准确性并没有随着训练而提高,它保持在接近随机的百分比

回答 0 投票 0

ModuleNotFoundError:没有名为“transformers.models.mmbt”的模块

从简单的转换器导入分类模型时,我收到此错误。请让我知道如何解决这个问题 ModuleNotFoundError Traceback(最近的调用...

回答 0 投票 0

HuggingFace 评估微调零样本模型

我正在微调 HuggingFace facebook/bart-large-mnli 模型以满足我的需要,我使用以下参数: training_args = TrainingArguments( output_dir=model_directory, # 输出目录...

回答 0 投票 0

Huggingface - 带有经过微调的预训练模型的管道

我有一个来自 facebook/bart-large-mnli 的预训练模型我使用了 Trainer 以便在我自己的数据集上训练它。 模型 = BartForSequenceClassification.from_pretrained("facebook/bart-large-m...

回答 0 投票 0

通过删除 TfIdfVectorizer 的 LM 模型向量中不存在的词来创建 Ngram

我想聚类 160 000 个文档或可变长度。 问题: Spacy LM 模型“en_core_web_lg”没有我文档中出现的所有单词。 创建 NGrams 还包括

回答 0 投票 0

如何检查输入的字符串是否包含街道地址?

我们想要识别文档中的地址字段。为了识别地址字段,我们使用 Tesseract 将文档转换为 OCR 文件。从 tesseract 输出我们想检查一个字符串

回答 6 投票 0

有没有办法用 Longformer 标记句子?

我已经分叉了 Multimodal Transformers 包并在此处创建了一个支持 Longformer 的新版本 --> https://github.com/jtfields/Multimodal-Toolkit-Longformer/tree/master。格鲁吉亚.io

回答 0 投票 0

如何在 tf.keras 输入层上使用函数

我正在构建一个文本分类器,如代码所示。问题是我需要将文本传递给它,我编写了一个函数来获取文本、保留 NE、用一些信息丰富它们,以及

回答 0 投票 0

拥抱面变形器CUDA错误:CUBLAS_STATUS_NOT_INITIALIZE

我正在尝试微调 Facebook BART 模型,我正在关注这篇文章,以便使用我自己的数据集对文本进行分类。 我正在使用 Trainer 对象来训练: 训练参数 =

回答 0 投票 0

从 .pickle 获取数据

我有一个多项式 NB() 模型: text_clf_NB = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', MultinomialNB()), ...

回答 1 投票 0

正则表达式删除相关两次以上的字符模式

例如,我有一个具有重复字符模式的字符串: 'hhhhaaappy' 现在我想通过删除重复两次以上的字符来获得此输出: '快乐'

回答 1 投票 0

Huggingface 的零样本分类在生产/网络应用中如何工作,我需要先训练模型吗?

我已经使用了 huggingface 的零样本分类:我使用了此处报告的“facebook/bart-large-mnli”模型(https://huggingface.co/tasks/zero-shot-classification)。准确度...

回答 1 投票 0

将数据框中的文本与字典中的单词进行比较

我构建了输出的字典(MYdict): {'MATCH': ['演员', '上瘾', '上瘾', '受影响', 'alli', '天使', 'ani', '公寓', '占星术', '回避', '海滩', '存在','属于...

回答 2 投票 0

ValueError:模型没有从输入中返回损失,只有以下键:logits

我想制作一个隐喻检测器模型。 作为一个预训练模型,我使用了一个 DistilBert 模型,我之前用掩码对它进行了微调(这是我用来进行新隐喻检测的模型

回答 0 投票 0

Error: AttributeError: module 'torchtext.data' has no attribute 'Field'

实际上我在论坛上看到了几个相同的问题,但我仍然没有正确的解决方案。 这是我的代码块: 将 torchtext 作为数据导入 导入 torchtext.datasets 作为数据集 ... ... text_fi...

回答 0 投票 0

huggingface重新加载后如何使用fine-tuned模型进行实际预测?

我正在尝试重新加载我已经微调的 DistilBertForSequenceClassification 模型,并使用它来将一些句子预测到它们适当的标签中(文本分类)。 在谷歌 Colab 中,在

回答 1 投票 0

如何使用机器学习和 IndoBERT 对文本数据进行多类和多标签(不同数量的标签)分类?

我正在研究多类和多标签文本数据,每个类都有不同数量的标签(有 2 个类,二进制和多标签),但仍然不知道如何对其进行分类...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.