我正在使用 Langchain chroma DB 来存储和检索数据。
矢量数据库中的数据为法语,并使用 openAI Embeddings 存储。
Le code suivant: 84431390 décrit: Machines et appareils à imprimer offset (sauf alimentés en feuilles ou en bobines)
最终目标是打造一个聊天助手。但现在我隔离了 chromaDB 中相似性搜索的一个问题,当我搜索数字代码时(如前所述),该问题表现不佳。例如,如果我给出以下输入查询:
code suivant : 84823000
我通常应该获取包含相关代码的记录,但是我得到以下结果:
'Le code suivant : 84864000 décrit: Machines et appareils visés à la note 11 C du chapitre 84'
'Le code suivant : 84483900 décrit: Parties et accessoires des machines du n° 8445, n.d.a.'
'Le code suivant : 84313900 décrit: Parties de machines et appareils du n° 8428, n.d.a.'
相似度搜索很难找到相关代码吗?还是我还缺少其他东西。
这可能是由于一些常见问题造成的。以下是排除故障并检查相似性搜索质量的指南。 1)检查数据质量,如果数据中存在噪声,嵌入可能无法捕获正确的上下文。 2)尝试不同的嵌入模型。有时,某些模型更适合特定类型的内容。 3)检查嵌入距离:检索搜索结果后,检查距离或相似度分数(如果有)。这将帮助您了解嵌入是否足够接近以被视为相似。