信息检索是一个研究领域,涉及从非结构化或半结构化数据集合中检索文档,信息或元数据。
使用 NLTK 和 Python 从自由文本中提取关键字/短语进行结构化查询
我想解释自由文本中的特定关键字,例如“我想从最近的餐馆订购煮鸡蛋和菠菜汤”,并使用它们从我的数据库中搜索内容。 例如...
我有一个使用波特词干算法来索引文本的应用程序。我很惊讶地发现该算法并没有将一个国家的名称与一个国家的形容词具有相同的词根。对于
从非结构化医疗笔记中提取复杂变量而不依赖预定义关键字的最佳 NLP 方法
我正在致力于从电子健康记录中的非结构化患者笔记中提取结构化数据。我一直在使用 SpaCy 的命名实体识别模型和实体标尺(来定义我的d...
Lucene 等传统搜索引擎如何处理标记化和索引,为什么它们不使用整数映射来标记?
我一直在学习像 Lucene 这样的传统搜索引擎是如何工作的,我知道它们通常通过对语料库中的文本进行标记来构建倒排索引。然后使用这些代币
我有一个包含大约 300k 块的集合。我不认为这是一个巨大的数量,但是当应用元数据过滤器时,检索过程非常慢。有时需要长达 180 秒才能
Copilot for Microsoft 365 中的搜索结果优化
语义索引如何对组织内 Microsoft 365 搜索研究的 Copilot 中的文档进行排名? 我们如何为我们的组织操纵 Copilot M365 的搜索结果,以便......
在传统的信息检索系统中,我们使用布尔查询来生成与该查询匹配的结果集。 给定一组已知的类似文档,人们称之为“任务”是什么......
我正在使用 LLM 和 RAG 开发像 chatPDF 这样的应用程序。 我面临一个问题,我找不到 python 库来解析一个包含一些“复杂”表格的 pdf 文件。 例如 我...
如何制作一个适用于 Android 的应用程序来显示已删除的短信和通话
我对这一切都很陌生,我想构建一个应用程序,我可以在其中查看已删除的短信和通话 我问这个问题是为了让我知道如何构建这个应用程序,我学得很快,而且我渴望学习......
我知道elasticsearch中有一个很好的复合词令牌过滤器,但我的问题有点不同。我想知道像谷歌这样的搜索引擎如何处理开放形式的复合词,比如“post o...
我正在计算前 k 个检索对象的平均精度。这是我的代码。在这个阶段,我正在计算R@K。 代码从 csv 文件中读取两个列表,然后从列表中获取样本,c...
我目前正在 Coursera 上注册一门课程,学习如何用 Python 实现基于检索的问答 (RetrievalQA) 系统。本课程提供了利用 Retrie 的代码...
Elasticsearch 在 knn(基于向量)检索时如何进行属性过滤?
在他们关于 knn 检索的网站上,他们写了 在近似 kNN 搜索期间应用过滤器,以确保返回 k 个匹配文档。这与后过滤形成对比
我在一个网站上,我想获取特定范围的列表。 前任。姓名1 如何使用 Google Chrome 控制台获取所有 Names1 的列表(每个名称位于新行)? 非常感谢...
我想在langchain中创建一条链。并简短地得到以下错误 类型错误:需要 Runnable、callable 或 dict。相反,得到了不受支持的类型: 你找到了完整的...
我正在尝试在我的应用程序中为 RAG 构建 PDF 内容提取和分块系统。 我需要将 pdf 中的图像作为 url 包含在内,以便 llm 可以在响应中使用该图像 大部分
如何在不使用 API 的情况下从一个网站抓取信息并将其输入到另一个网站?
我目前的任务是为我们的组织创建帐户,我们从 ITSM 工具收到带有用户信息(姓名、职位、部门等)的票证。然后我们使用另一个网站......
我正在读《信息检索导论》这本书,我有一些实际的疑问。书中有一章专门介绍索引的压缩(字典和帖子...
如何使用 Haystack 识别与用户查询最匹配的前 k 个句子,然后返回包含这些句子的文档?
我有一组 1000 个文档(纯文本)和一个用户查询。我想使用 Python 库 Haystack 和 Faiss 检索与用户查询最相关的前 k 个文档。具体...
我正在使用langchain库将我公司的信息保存在矢量数据库中,当我查询信息时,结果很好,但需要一种方法来恢复信息所在的位置...