虽然寻找有关大数据的查询优化,尤其是ORC文件,我我碰到两种可能性来谓语下推和布隆过滤器。
谓词下推帮助我们避免不必要的读条,这有助于减少IO,但对我来说似乎是布隆过滤器也有异曲同工之妙,除了以下。
谓词下推,我们不需要在写一个ORC文件,其中为布隆过滤器,我们需要配置列在写入ORC文件明确创建任何文物。
请求建议,帮助我更好地理解。
由于桑托斯
布隆过滤器由谓语推沿用下来。谓词下推使用列统计信息主要是为了跳过行组,并尽量减少读取的行数。如果布隆过滤器用于再谓词下推可以最大限度地减少行数进一步阅读。