Lucene一词指的是开源Java全文搜索引擎库,也指整个生态系统,包括lucene.net,solr,elasticsearch和zend-search-lucene。
我正在尝试排除存储项目 ID 的字段为空的搜索结果。例如,该字段称为“类型”。我无法使用 LINQ 来做到这一点。这是我的代码
目前将hibernate搜索升级到5;我已经进行了迁移所需的更改,但搜索仍然返回 null “fullTextQuery.getResultList();”返回空。 酒吧...
我正在尝试在 Lucene 中调试索引文档,我需要查看索引的内容,以便我可以准确地看到文档是如何被索引的。据说卢克是这样做的,但没有文件...
我正在使用 Datastax 6.8。这是我的 SOLR 架构: 我正在使用 Datastax 6.8。这是我的 SOLR 架构: <?xml version="1.0" encoding="UTF-8" standalone="no"?> <schema name="autoSolrSchema" version="1.5"> <types> <fieldType class="org.apache.solr.schema.StrField" name="StrField"/> <fieldType class="org.apache.solr.schema.TextField" name="NameField"> <analyzer type="index"> <filter class="solr.ASCIIFoldingFilterFactory"/> <tokenizer class="solr.LowerCaseTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> <filter class="solr.NGramFilterFactory" maxGramSize="15" minGramSize="2"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.LowerCaseTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> <filter class="solr.NGramFilterFactory" maxGramSize="15" minGramSize="2"/> </analyzer> </fieldType> </types> <fields> <field indexed="true" multiValued="false" name="nama" type="StrField"/> <field indexed="true" multiValued="false" name="nama_copy" type="NameField"/> </fields> <uniqueKey>(nama)</uniqueKey> <copyField dest="nama_copy" source="nama"/> </schema> 我连续有这个字段值batamindo v 然后我运行了这个查询 http://my_ip_address:8983/solr/search.form/select?wt=json&indent=true&fl=nama&q=nama_copy:batamindo\ v 我得到了非常好的结果 { "responseHeader":{ "status":0, "QTime":8}, "response":{"numFound":579,"start":0,"docs":[ { "nama":"BATAMINDO V "}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}, { "nama":"BATAMINDO V"}] }} 但是当我跑步时 http://my_ip_address:8983/solr/search.form/select?wt=json&indent=true&fl=nama&q=nama_copy:batamindo\ vi 我的搜索结果非常糟糕 { "responseHeader":{ "status":0, "QTime":14}, "response":{"numFound":602,"start":0,"docs":[ { "nama":"MV. VINCA"}, { "nama":"MV. VINASHIP PEARL"}, { "nama":"MV. VINASHIP PEARL"}, { "nama":"MV. VINCENT TRADER"}, { "nama":"MV. MEGHNA VICTORY"}, { "nama":"MV. MEGHNA VICTORY"}, { "nama":"NAVI SUNNY"}, { "nama":"MV. MEGHNA VICTORY"}, { "nama":"MT. GOLDEN VIOLET"}, { "nama":"MT. GOLDEN VIOLET"}] }} 这里发生了什么? 您所看到的是预期行为。 NGramFilterFactory类将字符串标记为N大小的克。在您的情况下,字符串根据您的架构定义被分成 2 到 15 个字符的克: <filter class="solr.NGramFilterFactory" maxGramSize="15" minGramSize="2"/> 对于像 cassandra 这样的输入字符串,N 元语法过滤器会生成以下语法: 大小=2:ca as ss sa an nd dr ra 大小=3:cas ass ssa san and ndr dra 大小=4:cass assa ssan sand andr ndra 依此类推,直到大小=15 对于搜索词 ss,Solr 查询将获得 ss、ass、ssa、assa、ssan 等的匹配项。 在您的搜索词为 vi 的情况下,预计会匹配 vinca、vinaship、vincent、victory、navi、violet 等。 有关更多信息,请参阅Solr 中的文档分析。干杯!
Lucene 最近为 Lucene 9.0.0 添加了 HNSW 近似最近邻搜索 (ANN),基于此原始分支:https://issues.apache.org/jira/browse/LUCENE-9004。 Lucene是否支持预过滤...
Hibernate 搜索:使用 Ngram 过滤器对数据进行索引,并且在搜索时由于查询时标记化而给出不正确的结果
我有一个具有此配置的分析仪, 搜索映射// .analyzerDef(BaseEntity.CUSTOM_SEARCH_INDEX_ANALYZER, WhitespaceTokenizerFactory.class)// .filter(LowerCaseFilterFactory...
我的目标是计算两件事 Q1:一个elasticsearch集群可以同时处理多少个搜索请求 Q2:elasticsearch 集群之前可以在其队列中容纳多少个搜索请求
我们有一个索引模式 filebeat-7.10.2*,我们有它的模板。 现在我想要一个为索引 filebeat-8.6.0 自动创建的模板。 可能吗?
我想获取存储在 Alfresco 中的文档(或空间)的 NodeRef。 我的代码是用 Java 编写的,在 Alfresco 中运行(例如在 AMP 中)。 怎么办?
给定两个文档,每个文档有两个字段: 1. 标题:英国要求召开联合国会议 内容:联合国将听取联合王国的声明 (...) 2. 标题:
如果我在弹性中有更多的字段会发生什么我知道索引和搜索延迟增加,Ram 和缓存使用增加但有人可以深入解释内部发生的事情......
我有以下用例。 存储/索引数据而不标记(使用 StringField)并在存储时保持相同的字符串(在存储数据时保持区分大小写)。我面临的问题是...
我在这里遇到了一个非常奇怪的问题,我已经按照我在这里假设的那样设置了我的 solr 架构,并且一切正常,除了我的 Solr 从机损坏。 (测试)设置如下...
我是 Lucene 的新手。目前在运行 pylucene 的 ubuntu 上使用 9.4.1。 每当我查看 javadoc 时,我经常会看到两种分析器。一个是 base 另一个是 baseFacto...
使用 PyLucene 中的 PythonAnalyzer 过滤器链接分词器的问题
我是 PyLucene 的新手。我设法将它安装在我的 Ubuntu 上,并查看了如何实现自定义分析器的 [示例代码][1]。我尝试通过添加 NGramTokenFilter 来修改它。但我一直在...
我可以在分页后使用 search_after 模仿 OpenSearch 中的 tie_breaker_field 吗?
我按日期时间排序并具有循环值。 #1 “2023-01-03 19:57:38” #2 “2023-01-03 19:57:38” ... #3 “2023-01-03 19:57:39” #4 "2023-01-03 19:57:39...
我有弹性搜索条目,文本字段值为 2023 年 4 月 14 日 20:44:46.693 信息 [pool-2-thread-24] com.xyz.log [app_id:uuid] 使用 url=https://example.com/api/applications/uuid 调用执行任务/
我正在使用 Gerrit 2.13.5,Multi-Master 系统中有 2 个实例。我正在使用 gerrit 高可用性插件来同步缓存、事件和索引。一切正常,除了一个奇怪的......
我正在尝试在 Windows 7 的 cmd 提示符下运行一个 java 文件。 我收到错误: 错误:找不到或无法加载主类 我实际上只是保存了一个新的简单文件来检查是否有问题...
我正在尝试打印两个 docID 之间的文档中的所有术语。但是我索引的一些术语没有打印出来。 抱歉,因为这是我的 sp 项目,所以有些东西是在西班牙写的...