information-retrieval 相关问题

信息检索是一个研究领域,涉及从非结构化或半结构化数据集合中检索文档,信息或元数据。

solr 中基于向量的搜索

我正在尝试在 solr 中实现基于密集向量的搜索(当前使用版本 8.5.2)。我的要求是 将 solr 中每个文档的密集向量表示存储在名为

回答 3 投票 0

检索增强生成与LLM背景

我仍在学习 RAG 背后的概念,但我想知道, 如果参考文献解释 RAG 时说您将能够通过使用

回答 1 投票 0

带有 RetrievalQA Chain 的 Map_Reduce 提示

在下面的代码中,您可以看到我如何使用 Langchain with Memory 的 ParentDocumentRetriever 构建 RAG 模型。目前我正在使用 RetrievalQA-Chain 和默认的 chain_type="stuf...

回答 1 投票 0

LangChain中检索器的动态路由

在我的用例中,用户选择产品,然后输入查询。我需要运行检索和生成来创建响应。有 3 种不同的产品,每一种都有不同的 E...

回答 1 投票 0

带有 RetrievalQA Chain 的 Map_Reduce 提示 - Langchain

在下面的代码中,您可以看到我如何使用 Langchain with Memory 的 ParentDocumentRetriever 构建 RAG 模型。目前我正在使用 RetrievalQA-Chain 和默认的 chain_type="stuf...

回答 1 投票 0

如何将文本/信息的特定部分从一个单元格传输到多个相应的单元格?

我需要帮助从一个单元格中获取文本的特定部分并将其转移到其他几个单元格中。在“杆信息”类别下,每个类别的字符数量/类型(杆类型、绘图...

回答 1 投票 0

如何在大型数据库中进行文档检索以增强LLM的提示?

我有一个大型文档数据库(这些“文档”本质上是网页,而且都是 HTML 格式)。他们有关于业务本身的信息,并且可以包含很多类似的信息

回答 1 投票 0

如何下载和使用维基百科数据转储?

我想计算特定语言(例如英语)的 wiki 转储中的实体/类别。对于初学者来说,官方文档很难找到/遵循。到目前为止我所理解的是...

回答 3 投票 0

像pinecone这样的托管向量数据库可以支持MMR吗

为了获得搜索结果的多样性,我想为此使用最大边际相关性。 我想从类似于问题的向量数据库中获取 N 个文档,然后我想获取其中的文档...

回答 1 投票 0

使用as_retriever search_kwargs参数过滤langchain矢量数据库

如何使用 as_retriever 函数中的 search_kwargs 参数过滤 langchain 矢量数据库? 这是一个例子来说明我想做的事情: # 假设我有以下向量

回答 1 投票 0

沃尔玛价格标签上的代码代表什么(“VEN”、“AR”、“AS”、“WR”等)?

我正在编写一个程序来读取本地商店的不同定价标签(这些贴纸通常位于产品下方并显示价格)。在沃尔玛标签上,有一些我...

回答 2 投票 0

Chromadb + Langchain 与 SentenceTransformerEmbeddingFunction 抛出 sqlite3 >= 3.35.0 错误,尽管 sqlite3 3.43.0 可用

我一直在尝试使用 Chromadb 版本 0.4.8 Langchain版本0.0.276 使用 SentenceTransformerEmbeddingFunction,如下面的代码片段所示。 从 langchain.vectorstores 导入 Chroma 来自

回答 1 投票 0

矢量搜索如何能够匹配精确的关键字,即使是随机生成且没有意义的单词?

我正在为我的基于 LLM 的项目做一些 POC,为此我使用矢量数据库进行文档检索 (IR)。 最近,我看到了一些来自一些最著名的矢量数据库的博客......

回答 2 投票 0

一元词和二元词

编写代码来循环遍历语料库并创建一个包含每个文档中的一元和二元标记的倒排索引。 导入操作系统 进口再 从集合导入defaultdict 导入时间

回答 1 投票 0

矢量搜索如何能够匹配精确的关键字(即使是随机生成且没有意义的单词)

我正在为我的基于 LLM 的项目做一些 POC,为此我使用矢量数据库进行文档检索 (IR)。 最近,我看到了一些来自一些最著名的矢量数据库的博客......

回答 1 投票 0

使用 ConversationalRetrievalChain、Stuff 和 Chailit UI 获取源文档并评分

我在尝试从此代码导出源文档和分数时遇到问题。我尝试了很多东西,但无法检索它。我最多能做的就是将我的需求传递给提示,这样......

回答 1 投票 0

使用 Langchain 的检索与 .from_llm 或定义 LLMChain 有什么区别?

在文档中,我看到了两种构造模式,我对两者之间的区别有点困惑。我不知道是否有任何实际差异,或者差异是否相同......

回答 1 投票 0

计算词频权重和IDF、逆文档频率时为什么要用log?

IDF 的公式是 log( N / df t ) 而不是 N / df t 。 其中 N = 集合中的文档总数,df t = 术语 t 的文档频率。 据说使用原木是因为它“抑制”了

回答 5 投票 0

Chromadb + Langchain + SentenceTransformerEmbeddingFunction 抛出“SentenceTransformerEmbeddingFunction”对象没有属性“embed_documents”

我一直在尝试使用 Chromadb 版本 0.4.8 Langchain版本0.0.276 使用 SentenceTransformerEmbeddingFunction,如下面的代码片段所示。 从 langchain.vectorstores 导入 Chroma 来自

回答 1 投票 0

使用 URL 或服务嵌入 Huggingface 教练

目前我使用 Astro Airflow 将文档插入数据库向量。问题是当我想调用instructor-xl时,总是出错: 正在下载 (…)7f436/tokenizer.json: 100%|##########| 2.4...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.