ngram匹配为不太相关的文档提供相同的分数

Question

我正在我的Elasticsearch索引中搜索Bob Smith。结果鲍勃·史密斯和鲍比·史密斯都以相同的分数返回了响应。我希望鲍勃·史密斯（Bob Smith）有更高的分数，以便它在我的结果集中排在第一位。为什么分数相等？

这是我的查询

{
    "query": {
        "query_string": {
            "query": "Bob Smith",
            "fields": [
                "text_field"
            ]
        }
    }
}

下面是我的索引设置。我正在使用此处描述的ngram令牌过滤器：https://qbox.io/blog/an-introduction-to-ngrams-in-elasticsearch

{
    "contacts_5test": {
        "aliases": {},
        "mappings": {
            "properties": {
                "text_field": {
                    "type": "text",
                    "term_vector": "yes",
                    "analyzer": "ngram_filter_analyzer"
                }
            }
        },
        "settings": {
            "index": {
                "number_of_shards": "1",
                "provided_name": "contacts_5test",
                "creation_date": "1588987227997",
                "analysis": {
                    "filter": {
                        "ngram_filter": {
                            "type": "nGram",
                            "min_gram": "4",
                            "max_gram": "4"
                        }
                    },
                    "analyzer": {
                        "ngram_filter_analyzer": {
                            "filter": [
                                "lowercase",
                                "ngram_filter"
                            ],
                            "type": "custom",
                            "tokenizer": "standard"
                        }
                    }
                },
                "number_of_replicas": "1",
                "uuid": "HqOXu9bNRwCHSeK39WWlxw",
                "version": {
                    "created": "7060199"
                }
            }
        }
    }
}

这是我查询的结果...

"hits": [
  {
    "_index": "contacts_5test",
    "_type": "_doc",
    "_id": "1",
    "_score": 0.69795835,
    "_source": {
      "text_field": "Bob Smith"
    }
  },
  {
    "_index": "contacts_5test",
    "_type": "_doc",
    "_id": "2",
    "_score": 0.69795835,
    "_source": {
      "text_field": "Bobbi Smith"
    }
  }
]

如果我改为搜索Bobbi Smith，elastic将返回两个文档，但Bobbi Smith的得分较高。这更有意义。

Answer 1

我能够重现您的问题，其原因是由于使用了ngram_filter，它没有为bob创建任何令牌，因为令牌的最小长度应为4，而标准令牌生成器创建了bob令牌，但随后在ngram_filter中将其滤除为min_gram。

即使我尝试将4的长度缩短为min_gram，也会创建令牌，但问题是3和bob都将具有相同的bobbie令牌，因此，两者的得分均为相同。

[当您搜索bob时，则Bobbi Smith即确切的令牌将仅出现在一个文档中，因此您会获得较高的分数。

注意：-请使用bobbi和analyze API检查生成的令牌以及它们如何匹配，这将有助于您理解该问题以及我的详细解释和我的解释

ngram匹配为不太相关的文档提供相同的分数

问题描述投票：1回答：1

1个回答

最新问题

ngram匹配为不太相关的文档提供相同的分数

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1