使用 Langchain Chroma 进行相似性搜索未返回相关结果

问题描述 投票:0回答:1

我正在使用 Langchain chroma DB 来存储和检索数据。

矢量数据库中的数据为法语,并使用 openAI Embeddings 存储。

Le code suivant: 84431390 décrit: Machines et appareils à imprimer offset (sauf alimentés en feuilles ou en bobines)

最终目标是打造一个聊天助手。但现在我隔离了 chromaDB 中相似性搜索的一个问题,当我搜索数字代码时(如前所述),该问题表现不佳。例如,如果我给出以下输入查询:

 code suivant : 84823000

我通常应该获取包含相关代码的记录,但是我得到以下结果:

'Le code suivant : 84864000 décrit: Machines et appareils visés à la note 11 C du chapitre 84'

'Le code suivant : 84483900 décrit: Parties et accessoires des machines du n° 8445, n.d.a.'

'Le code suivant : 84313900 décrit: Parties de machines et appareils du n° 8428, n.d.a.'

相似度搜索很难找到相关代码吗?还是我还缺少其他东西。

langchain vector-database openaiembeddings similarity-search
1个回答
0
投票

这可能是由于一些常见问题造成的。以下是排除故障并检查相似性搜索质量的指南。 1)检查数据质量,如果数据中存在噪声,嵌入可能无法捕获正确的上下文。 2)尝试不同的嵌入模型。有时,某些模型更适合特定类型的内容。 3)检查嵌入距离:检索搜索结果后,检查距离或相似度分数(如果有)。这将帮助您了解嵌入是否足够接近以被视为相似。

© www.soinside.com 2019 - 2024. All rights reserved.