word-embedding 相关问题

有关字嵌入的问题,自然语言处理中的语言建模技术。问题可能涉及特定方法,例如Word2Vec,GloVe,FastText等,或者字嵌入及其在机器学习库中的使用。

句子转换器的降维

我需要在预处理中计算大量句子(比如说10K)的嵌入,并且在运行时我必须一次计算一个句子的嵌入向量(用户查询),然后...

回答 1 投票 0

从列数据中对表标题进行分类

我有一大组包含数字和文本数据的 CSV;这是一个示例: 公司编号 公司名称 组号 货币 数量 ... 8494494 艾克美公司 F942G 欧元 1.56 美元 ... 9283422A 沃尔玛 XXH3F3 澳元 5.64 美元 ....

回答 1 投票 0

如何获取BERT句子嵌入向量?

我正在使用 bert-for-tf2 模块,以便将 BERT 模型包装为 Tensorflow 2.0 中的 Keras 层。我已按照您的指南将 BERT 模型实现为 Keras 层。 我正在尝试提取嵌入......

回答 1 投票 0

如何仅冻结一些带有绑定嵌入的嵌入索引?

我发现是否可以在pytorch中的嵌入层中仅冻结某些嵌入权重?一种仅冻结嵌入层的某些索引的好方法。 然而,虽然将其包含在...

回答 1 投票 0

为什么我的 Sequential API 中的 SimpleRNN 模型显示“?”使用嵌入层时的输出形状和零可训练参数?

我正在 Keras 中构建带有嵌入层的 SimpleRNN 模型,并在使用 Sequential API 时遇到问题。模型摘要显示输出形状为?以及可训练的数量

回答 1 投票 0

识别文档中与定义主题相关的单词/短语

我想建立一个模型: 需要 2 个输入: 一个。文档(例如 PDF) b.预定义主题的短语 返回与预定义主题相关的单词或短语 (2-gram) 列表。 例如...

回答 1 投票 0

为什么我没有看到我的 firestore 矢量嵌入搜索的任何返回结果?

我已经根据 firebase 文档创建了一个复合索引 gcloud alpha firestore 索引复合创建 \ --project=[在此处插入项目名称] --collection-group=元素 --query-scope=集合 \ --

回答 1 投票 0

关于SentenceTransformer的encode_multi_process方法的问题

如何利用 SentenceTransformer 类的encode_multi_process 方法使用多个 GPU 对大量句子进行编码? 我尝试使用

回答 1 投票 0

将inputs_embeds与生成方法一起使用时出错

尝试使用inputs_embeds将嵌入传递给我的模型时遇到问题: ValueError:您传递了inputs_embedsto.generate(),但模型类LlamaForCausalLM没有其

回答 1 投票 0

huggingface 仅训练新的令牌嵌入

我想将新令牌添加到huggingface模型中并仅训练它们的嵌入。我怎样才能做到这一点? 有一些方法可以仅训练权重张量的一部分(例如 https://discuss.pytorch.org/t/how...

回答 1 投票 0

在本地下载预训练的句子转换器模型

我正在使用 SentenceTransformers 库(此处:https://pypi.org/project/sentence-transformers/#pretrained-models)使用预训练模型 bert-base-nli-.. .

回答 3 投票 0

如何从CLIP模型中获得多模态嵌入?

我希望使用 CLIP 获得多模态(图像和文本)数据行的单个嵌入。 假设我有以下模型: 从 PIL 导入图像 进口火炬 从变压器导入 CLIPProces...

回答 1 投票 0

从示例数据集重新创建文本嵌入

我有一个句子列表,以及它们在 25 维向量上的理想嵌入列表。我正在尝试使用神经网络生成新的编码,但我很挣扎。当模型运行时...

回答 1 投票 0

使用 gensim 获取 GloVe 嵌入,在 scipy.linalg 中找不到 triu

我正在尝试使用 GloVe 词嵌入构建情感分析模型...... 我找到了多个关于如何将嵌入导入到 python 中的来源,这似乎是最简单的...... 尝试...

回答 1 投票 0

无法访问托管 llama3-8b-instruct 的 vLLM 上的嵌入端点

我使用 vllm 在计算机上运行 llama3-8b-instruct,我可以访问聊天端点,但是当我使用以下代码访问嵌入端点时,我收到 NotFoundError: Error code: 404 - {'detail'. ..

回答 1 投票 0

ML.Net 停留在预训练模型 Fit() 方法上

有一些适用于预训练模型的代码示例(链接到整个示例页面https://learn.microsoft.com/en-us/dotnet/api/microsoft.ml.textcatalog.applywordembedding?view=ml-dotnet ): 我们...

回答 2 投票 0

使用 Google Vertex AI 多模式嵌入模式嵌入视频时出现“截止日期”错误

我目前正在使用 Vertex AI 的多模态嵌入模型(https://cloud.google.com/vertex-ai/generative-ai/docs/embeddings/get-multimodal-embeddings) 我能够获得图像和文本示例

回答 1 投票 0

使用 gensim 下载器时,Fasttext 预训练模型不会生成 OOV 词向量

在尝试使用迄今为止发现的所有 fasttext 库(在 Windows 11 上的 Jupyter 和 Anaconda3 中)时,我遇到了很多麻烦,但这个问题主要是关于 gensim 的实现...

回答 1 投票 0

如何将 HTML 转换为适合矢量嵌入模型的文本

我想将html文件转换为纯文本,以保留html的逻辑结构(标题副标题子副标题),但我们不要 我想以一种保留 html 标题逻辑结构的方式将 html 文件转换为纯文本 <h1> 字幕 <h2> 子子标题 <h3> 并且我们不要忘记到其他页面的链接 <code> 块。 我见过一些旧的库,如 html2text,但它们真的能以最佳形式呈现 html 吗?特别是矢量化的最佳形式?一些建议是使用 ** 标题 ** 和 *** 副标题 *** 段落之间的间距等。但我需要知道矢量嵌入的最佳格式是什么以及什么库支持这种转换? html2text python 库、html-to-text nodejs 库等我已经尝试过,但是,我期望 一切 都被翻译成保留每个 html 标签的含义和语义相关性的形式。 我希望获得用于此目的的最佳库的建议,或者至少希望 html 数据用于矢量化的最佳格式是什么。 为了在保留语义结构的同时实现 HTML 内容的最佳矢量化,请考虑使用 Beautiful Soup (Python) 或 html-to-text (Node.js) 等库。这些工具提供可配置的选项,用于将 HTML 转换为纯文本,保留标题、段落和其他结构元素。预处理 HTML 以适当处理代码块和链接等特殊情况。尝试设置以找到适当的平衡。对于矢量化,维持逻辑结构的纯文本表示通常就足够了,可以用于标记化和词嵌入等技术。

回答 1 投票 0

组合文本嵌入

将文本嵌入组合成一个然后在向量数据库中搜索的最佳方法是什么? 我正在尝试创建一个推荐系统,因此当用户单击另一个类别时,我会得到嵌入的文本...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.