如何在 OpenSearch 中定义一个标记生成器,将指定的分隔符保留为标记?
输入:
lorem123+ipsum dolar-sit
,带分隔符 +
、\\s
、-
输出代币:
lorem123
、+
、ipsum
、dolar
、-
、sit
只需使用正则表达式,例如
{
"text": "my query",
"tokenizer": {
"type": "pattern",
"pattern": "[·\\s\\-\\.,\\+\/\\|]"
}
}
在您的索引配置中。