我在使搜索输出对最终用户更实用方面遇到问题。问题与算法和方法有关,然后与要使用的确切技术或框架有关。
目前我们有一个产品数据库,可以用以下模式描述:
从搜索的角度来看,我们已经做了相当标准的事情,使用标记分析器进行第三方文本搜索,处理错误类型和同义词(这不是完整列表,但正如我所说,它超出了范围)。但我们仍然需要执行额外的工作,以使搜索结果更接近现实生活中的用户需求,这可能与 Google 按相关性对索引页面进行排名的方式有些类似。我们已经认为可能适用于解决问题的想法:
感谢任何帮助或建议方向,在哪里挖掘。
您可以尝试pLSA;网上有很多参考资料,应该有库和源代码。
编辑:
嗯,我最近仔细研究了 Lucene,它似乎对实际提出的问题给出了更好的答案(它不使用 pLSA)。至于与db的集成,你可以使用Hibernate Search(虽然它似乎没有直接使用Lucene那么强大)。