借助 SAP HANA,您可以进行文本分析、全文搜索甚至情感分析。
在 SAP HANA 中自定义标记化有哪些选项?
我知道我可以为特殊词创建自定义词典。例如我可以让 HANA 将“堆栈溢出”识别为单个实体/令牌。
但有时 HANA 从多个单词中创建标记,这些单词不是一个标记/实体,例如“SAP 体验”在这里我想要 2 个标记“SAP”和“体验”(不是“SAP 体验”)
那么如何自定义标记化(自定义词典除外)
我偶然发现了这个信息,我想我会把它传下去以防它有帮助。
查看可用于自定义 HANA 中文本索引的众多参数。要查看全文索引的配置,您可以使用 SYS.FULLTEXT_INDEXES 视图。 PHRASE INDEX RATIO 的值是多少?