版本(相关 - OpenSearch): 2.11
问题: 我们正在使用 m5.large.search 单节点集群,我们在应用程序中使用正常的关键字搜索,但现在我们想使用向量搜索来提高效率,为此,我为以下字段创建了一个摄取管道:我想要矢量化,我们有大约 8 个字段需要矢量化,当我尝试在这个索引中提取数据时,它花费了太多时间,通常当我们在普通索引中提取数据时,发送大约需要 20-40 秒1300-1400 个文档,但是当我尝试在向量索引中提取相同的数据时,它花费了太多时间,大约 15-20 分钟
任何人都可以建议这是什么原因造成的,是由于嵌入还是我需要考虑的其他原因。如果创建向量的策略存在问题,请告诉我。
所以基本上我们的用例是,我们希望为用户提供一种设施,他们可以以提示格式进行查询,并基于此我们将向他们返回与其查询相关的数据。为此,我们正在做的是,我们将所需的字段转换为向量,然后在这些向量中搜索提示,这样做是否正确,请告诉我,因为我对此很陌生。
我为我工作的公司建立了相同的系统。这里的延迟可能有多种不同的原因。
"title_vector" => [
"type" => "knn_vector",
"dimension" => 768,
"method" => [
"name" => "hnsw",
"space_type" => "l2",
"engine" => "nmslib",
"parameters" => [
"ef_construction" => 128,
"m" => 24
]
]
],