自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我正在尝试预先计算句子嵌入,我想将其存储在 csv 文件中,以便以后可以重复使用。我创建了一个 Pandas 数据框,并将嵌入正确存储为 2d a...
我使用 Brown 语料库和 gensim 训练了一个 word2vec 模型,如下所示: 模型 = gensim.models.Word2Vec(brown.sents(),min_count = 5, 矢量大小 = 30,窗口 = 5,
从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP?
我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将上面提取的数据类型存储在哪种类型中
使用 SentenceTransformers 编码后嵌入校验和不同?
我正在使用 SentenceTransformers 库计算一些嵌入。然而,在对句子进行编码并在检查它们的值的总和时计算它们的嵌入时,我得到了不同的结果......
在此处输入图像描述我在变量“message”下存储了一个废弃的文本。 我已经删除了 StopWords 并将结果存储在变量“without_stop_words”中...
对于 HTML 内容的抽象摘要,非法学硕士模型与法学硕士相比如何?
我有兴趣利用 NLP 模型提供网页的简短(一个句子长度)抽象摘要,为模型提供一组来自每个网页的常见 HTML 内容...
NLP 新手,有一个关于词嵌入的问题。作为学习练习,我正在尝试训练自己的基于 word2vec 的一组词嵌入。我有一个英语句子语料库
我正在将 langchain 代理初始化为: agent_output_parser=AgentOutputParser() self.mrkl = 初始化_代理( 工具, 嗯, 输出解析器=
我正在从事非线性编程工作,并遇到了一些问题,这些问题解释了我在使用求解器 CP 时不能在 CPLEX 中使用浮点决策变量。帮助我,如果有某种方法或其他我......
我有一个简单的程序来处理带有spacy的英文文本并输出一些有关标记的信息。对于大文本,spacy 需要很长时间来处理它。有没有办法看到距离有多远
我使用这个官方示例代码使用我自己的训练样本从头开始训练 NER 模型。 当我在新文本上使用此模型进行预测时,我想获得每个
重新导入 进口泡菜 导入keras 将张量流导入为 tf 从 keras.models 导入顺序 从 keras.layers 导入 TFSMLayer 将 numpy 导入为 np 类 CustomNonPaddingTokenLoss(keras.losses....
使用 BERT 模型,我不断收到错误:在 MacBook-Pro-21.lan 上运行的二进制文件中,Op 类型未注册“CaseFoldUTF8”
我正在尝试使用 BERT 模型来帮助预测更新是否紧急。我可以使用以下输出来标记更新: 然而,当我去定义模型时,我不断得到
Microsoft Copilot - 与 Excel 集成
我对大型语言模型(LLM)领域还比较陌生,而且我仍在学习过程中。我最近发现一些信息表明法学硕士可能不太适合工作...
Kaggle 的包缺少许多基本方法,例如 Kaggle 的 `Dataset` 类没有 `from_generator()` 方法
我已经在一个特定的 NLP 项目上工作了一个月,并且遇到了一个又一个错误。我在我的土豆 PC 上构建了一个小型模型,它运行得很好。我将其升级到 Kaggle 并运行
sklearn 中的 TfidfVectorizer 如何专门包含单词
我有一些关于 TfidfVectorizer 的问题。 我不清楚这些词是如何选择的。我们可以提供最低限度的支持,但在那之后,什么将决定选择哪些功能(例如
OSError:[E050]找不到模型“xx_ent_wiki_sm”。它似乎不是一个 Python 包或数据目录的有效路径
嗨,我已经在 Windows 上学习 ML,并尝试迁移到 ubuntu 并学习 NLP。我已经通过终端和终端在 /usr/local/lib/python3.8/dist-packages$ python 文件夹中安装了 spacy 和 model。 ..
我正在尝试使用 spacy 和 python 创建一个从文本中提取实体的 NLP 项目。 我需要一些自定义实体,因此我创建了一个带有注释文章的 JSON 文件,我用它来训练我的...
解决运行Doc2vec gensim时结果不同的问题的解决方案?
我尝试查找有关Doc2vec运行时返回不同结果的问题的信息。我之前看到了很多关于此的问题,我知道它发生是因为向量是随机初始化的。嗬...
我正在使用 TF 2.2.0 并尝试创建 Word2Vec CNN 文本分类模型。但无论我如何尝试,模型或嵌入层始终存在问题。我找不到明确的解决方案...