Azure搜索Microsoft英文搜索分析器

问题描述 投票:0回答:1

我正在尝试在autopart产品的描述字段中使用Microsoft English分析器。我遇到了一些带有十进制测量值的意外行为,所以我通过分析API运行它来确认,它看起来像简化算法使用小数点作为信号/分隔符将整数和十进制值分解为两个单独的标记,我不知道不要认为这是一种理想的行为。

例如。

文字:“M12-1.50轮螺栓 - 14毫米。六角,23.12毫米。螺纹长度14毫米。

被打破了

{
"@odata.context": "https://site.search.windows.net/$metadata#Microsoft.Azure.Search.V2017_11_11.AnalyzeResult",
"tokens": [
 {
    "token": "m12-1",
    "startOffset": 0,
    "endOffset": 5,
    "position": 0
    },
    {
    "token": "m12",
    "startOffset": 0,
    "endOffset": 3,
    "position": 0
    },
    {
    "token": "1",
    "startOffset": 4,
    "endOffset": 5,
    "position": 1
    },
    {
    "token": "nn1",
    "startOffset": 4,
    "endOffset": 5,
    "position": 1
    },
    {
    "token": "50",
    "startOffset": 6,
    "endOffset": 8,
    "position": 2
    },
    {
    "token": "nn50",
    "startOffset": 6,
    "endOffset": 8,
    "position": 2
    },
    {
    "token": "wheel",
    "startOffset": 9,
    "endOffset": 14,
    "position": 3
    },
    {
    "token": "bolt",
    "startOffset": 15,
    "endOffset": 19,
    "position": 4
    },
    {
    "token": "14mm",
    "startOffset": 22,
    "endOffset": 26,
    "position": 5
    },
    {
    "token": "hex",
    "startOffset": 29,
    "endOffset": 32,
    "position": 6
    },
    {
    "token": "23",
    "startOffset": 34,
    "endOffset": 36,
    "position": 7
    },
    {
    "token": "nn23",
    "startOffset": 34,
    "endOffset": 36,
    "position": 7
    },
    {
    "token": "12mm",
    "startOffset": 37,
    "endOffset": 41,
    "position": 8
    },
    {
    "token": "thread",
    "startOffset": 44,
    "endOffset": 50,
    "position": 9
    },
    {
    "token": "length",
    "startOffset": 51,
    "endOffset": 57,
    "position": 10
    },
    {
    "token": "14mm",
    "startOffset": 58,
    "endOffset": 62,
    "position": 11
    }
]
}

对于寻找12mm车轮螺栓的人来说,这将被退回。

任何帮助,将不胜感激 :)

谢谢!

azure azure-search
1个回答
0
投票

这是预期的行为。 Microsoft英语分析器将十进制视为分隔符并生成2个单独的标记。

如果你想在几个字段上执行完全匹配(例如:搜索“M12-1.50车轮螺栓 - 14毫米。十六进制,23.12毫米”),那么我建议使用带有小写标记器的“关键字”分析器。

你可以在这里阅读更多相关信息:https://docs.microsoft.com/en-us/rest/api/searchservice/custom-analyzers-in-azure-search

© www.soinside.com 2019 - 2024. All rights reserved.