使用searchAfter从大堆栈的中间获取数据（跳转到特定页面，）

Question

我有一个大约 2500 万条记录的大型数据集我使用 searchAfter 和 PointInTime 来遍历数据我的问题是有没有办法可以跳过超过 10000 条限制的记录

index.max_result_window

并开始选择记录，例如从 100,000 到 105,000

现在我正在向 Elasticsearch 发送多个请求，直到达到所需的点，但效率不高并且消耗大量时间

我是这样做的：我计算了分页需要多少页。
然后用户将发送一个页码为 3 的请求。因此，在这种情况下，只有当我到达所需的页面时，我才会将源设置为 true。我最好设法提高性能并减少非必需页面的响应大小

 int numberOfPages =  Pagination.GetTotalPages(totalCount, _size);

 var pitResponse = await _esClient.OpenPointInTimeAsync(content._index, p => p.KeepAlive("2m"));

            if (pitResponse.IsValid)
            {
                IEnumerable<object> lastHit = null;

                    for (int round = 0; round < numberOfPages; round++)
                    {
                        bool fetchSource = round == requiredPage;
                        var response = await _esClient.SearchAsync<ProductionDataItem>(s => s
                            .Index(content._index)
                            .Size(10000)
                            .Source(fetchSource)
                            .Query(query)
                            .PointInTime(pitResponse.Id)
                            .Sort(srt => {
                                if (content.Sort == 1) { srt.Ascending(sortBy); }
                                else { srt.Descending(sortBy); }
                                return srt; })
                            .SearchAfter(lastHit)
                        );

                        if (fetchSource)
                        {
                           itemsList.AddRange(response.Documents.ToList());
                            break;
                        }
                        lastHit = response.Hits.Last().Sorts;
                    }
                }
                //Closing PIT
                await _esClient.ClosePointInTimeAsync(p => p.Id(pitResponse.Id));

Answer 1

我认为最好的方法是

通过时间点保持滚动，并仅在使用

.source(bool)

到达所需页面时加载结果

使用searchAfter从大堆栈的中间获取数据（跳转到特定页面，）

问题描述投票：0回答：1

1个回答

最新问题

使用searchAfter从大堆栈的中间获取数据（跳转到特定页面，）

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1